ML生成模型与判别模型  

admin  

监督学习的任务是对给定的输入预测相应的输出。模型的形式一般是一个判别函数或者一个条件概率分布。

监督学习模型可分为生成模型与判别模型。

判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。

生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类。

区别和联系

判别模型 直接学习样本的条件概率分布或者判别函数。相当于找到样本之间的最优分隔平面。

生成模型则是学习样本之间的联合分布。得到联合分布之后再利用条件概率进行分类。

生成模型可以得到判别模型,因为判别模型的依据是条件概率分布。

特点

生成方法目的是画的样本的联合分布P(X,Y),找到样本数据的真实分布,生成方法不关心样本的分类边界。生成方法的学习收敛速度更快,当存在隐变量时,仍可以用生成方法学习。

判别方法的特点:判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X)。不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。直接面对预测,往往学习的准确率更高。

生成算法尝试刻画数据的真实分布,然后在分类。判别模型尝试区分数据之间的差异进行划分。

常见模型

判别模型,K 近邻、感知机(神经网络)、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场

生成模型,朴素贝叶斯、隐马尔可夫模型、混合高斯模型、贝叶斯网络、马尔可夫随机场