kmeans算法python实现|关于kmeans算法报告总结

2014-01-03 报告总结阅读：

　　一、背景知识简介：

　　Kmeans算法是一种经典的聚类算法，在模式识别中得到了广泛的应用，基于Kmeans的变种算法也有很多，模糊Kmeans、分层Kmeans等。

　　Kmeans和应用于混合高斯模型的受限EM算法是一致的。高斯混合模型广泛用于数据挖掘、模式识别、机器学习、统计分析。Kmeans的迭代步骤可以看成E步和M步，E：固定参数类别中心向量重新标记样本，M：固定标记样本调整类别中心向量。K均值只考虑（估计）了均值，而没有估计类别的方差，所以聚类的结构比较适合于特征协方差相等的类别。

　　二、 k-means聚类算法

　　k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

　　K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

　　（1）算法思路：

　　首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

　　该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

　　（2）算法步骤：

　　step.1---初始化距离K个聚类的质心（随机产生）

　　step.2---计算所有数据样本与每个质心的欧氏距离，将数据样本加入与其欧氏距离最短的那个质心的簇中（记录其数据样本的编号）

　　step.3---计算现在每个簇的质心，进行更新，判断新质心是否与原质心相等，若相等，则迭代结束，若不相等，回到step2继续迭代。

kmeans算法python实现|关于kmeans算法报告总结

http://m.0413xx.com/fanwendaquan/33902.html

推荐访问:

kmeans算法python实现|关于kmeans算法报告总结

报告总结推荐文章

推荐内容