由Platt提出的SMO算法是支持向量机学习的一种快速算法,其特点为不断将原二次规划问题分解为只有两个变量的二次子规划问题,并对子问题进行解析求解,直到所有变量满足KKT条件为止。SVM是通过求得全局最优解来进行学习,SVM在面对大规模的训练样本时,效果往往不是很好·,SMO算法正是为了解决这个问题而提出的。至此SVM章节的相关内容就全部结束了(本节思维导图涉及较多的证明过程,各位可根据需要查阅)

前两篇我们看的是都是适应线性样本的支持向量机,那遇到非线性的分类问题呢?利用核技巧,就可以将线性分类的学习方法应用到非线性分类问题中去,将线性支持向量机拓展到非线性支持向量机,只需将线性支持向量机对偶形式中的内积换成核函数,接下来就来看下非线性支持向量机的思维导图:

上一章讲了线性可分支持向量机,但在实际工程中,样本数据往往是数据不可分的,此时就需要另一种学习器-线性支持向量机,又称线性不可分支持向量机,因为其适用范围更广,所以一般将其称为线性支持向量机,其学习策略为-软间隔最大化(区别于线性可分支持向量机的硬间隔最大化):

在机器学习的学习之路上,SVM是ML童鞋们在分类问题上一定会遇到的一个学习方法,SVM这一章将SVM按训练数据的线性可分性分为由简到繁分为三种模型:线性可分支持向量机(linner support vector machine in linearly separable case)线性支持向量机(linear support vector machine)以及非线性支持向量机(non-linear support vector)。在实际工程中,面对不同规模的数据集时,在小型数据集上,SVM有时仅需小量的训练数据,就可以得到比较好的训练结果,而这正是因为SVM的特性-支持向量,下面通过思维导图先简单介绍下SVM:

本章主要讲了决策树学习算法的三个部分:特征选择、树的生成方式和树的剪枝以及三种决策树算法:ID3、C4.5、CART

Tips:决策树的东西比较多(这章啃了一个星期才啃完 (lll¬ω¬)),我们平时使用的Sklearn里面的决策树用的就是CART算法,所以这章的重点就在于CART的两种树模型(回归树、分类树),ID3和C4.5可作为了解。