博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
斯坦福大学机器学习——高斯判别分析
阅读量:6510 次
发布时间:2019-06-24

本文共 1084 字,大约阅读时间需要 3 分钟。

转自

同朴素贝叶斯一样,高斯判别分析(Gaussian discriminant analysismodel, GDA)也是一种生成学习,在该模型中,我们假设y给定的情况下,x服从混合正态分布。通过训练确定参数,新样本通过已建立的模型计算出隶属不同类的概率,选取概率最大为样本所属的类。

一、混合正态分布(multivariate normal distribution)

混合正态分布也称混合高斯分布。该分布的期望和协方差为多元的:期望,协方差,协方差具有对称性和正定性。混合高斯分布:,它的的概率密度函数为:

其中,为混合高斯分布的期望,为其协方差,表示协方差的行列式。

下面用图形直观的看一下二维高斯分布的性质:

以上三个图形的期望都为:,最左端图形的协方差,中间的,最右端的,我们可以看出:当变小时,图像变得更加“瘦长”,而当增大时,图像变得更加“扁平”。

再看看更多的例子:

以上三个图形的期望都为:,从左至右三个图形的协方差分别的:

可以看到随着矩阵的逆对角线数值增加,图形延方向,即底部坐标45度角压缩。图形在这个方向更加“扁”。

以上三幅图分别是以上图形的等高线,可以更直观的看到调整逆对角线的数值对图像的压缩程度。

以上三幅图保持协方差不变,期望的值分别为

;;

可以看出,随着期望的改变,图形在平面上平移,而其他特性保持不变。

二、高斯判别分析模型

如果特征值x是连续的随机变量,我们可以使用高斯判别分析模型完成特征值的分类。为了简化模型,假设特征值为二分类,分类结果服从0-1分布。(如果为多分类,分类结果就服从二项分布)

模型基于这样的假设:

他们的概率(密度)函数分别为:

模型的待估计参数为,通常模型有两个不同的期望,而有一个相同的协方差。

该模型的极大似然对数方程为:

                                                                                         

                                                        

                                                        

求解该极大似然方程得:

在对计算完成之后,将新的样本x带入进建立好的模型中,计算出、,选取概率更大的结果为正确的分类。

三、GDA和logistic回归

GDA模型和logistic回归模型存在这样有趣的关系:假如我们将视作关于x的函数,该函数可以表示成logistic回归形式:

 

其中,可以用以为变量的函数表示。

前文中已经提到,如果为混合高斯分布,那么,就可以表示成logistic回归函数形式;相反,如果可表示成logistic回归函数形式,并不代表服从混合高斯分布。这意味着GDA比logistic回归需要更加严格的模型假设,当然,如果混合高斯模型的假设是正确的,那么,GDA具有更高的拟合度。基于以上原因,在实践中使用logistic回归比使用GDA更普遍。

你可能感兴趣的文章
CloudCC:智能CRM究竟能否成为下一个行业风口?
查看>>
追求绿色数据中心
查看>>
Web开发初学指南
查看>>
探寻光存储没落的真正原因
查看>>
高通64位ARMv8系列服务器芯片商标命名:Centriq
查看>>
中国人工智能学会通讯——融合经济学原理的个性化推荐 1.1 互联网经济系统的基本问题...
查看>>
戴尔为保护数据安全 推出新款服务器PowerEdge T30
查看>>
今年以来硅晶圆涨幅约达40%
查看>>
构建智能的新一代网络——专访Mellanox市场部副总裁 Gilad Shainer
查看>>
《数字视频和高清:算法和接口》一导读
查看>>
《中国人工智能学会通讯》——6.6 实体消歧技术研究
查看>>
如何在Windows查看端口占用情况及查杀进程
查看>>
云存储应用Upthere获7700万美元股权债务融资
查看>>
国家互联网应急中心何世平博士主题演讲
查看>>
洗茶,你误会了多少年?
查看>>
贵阳高新区力争打造“千亿级大数据园区”
查看>>
安防众筹不止于卖产品 思维拓展刺激消费
查看>>
OpenSSH曝高危漏洞 会泄露私钥
查看>>
艾特网能获2016APCA用户满意品牌大奖
查看>>
《CCNP TSHOOT 300-135学习指南》——第2章 结构化故障检测与排除进程
查看>>