
狄里赫雷混合模型呢,是对提取的频率幅值特征量进行聚类的。上一章用 KNN 方法来给特征量分类,KNN 方法简单又容易做,可它也有缺点。KNN 每次分类或者回归的时候都得算样本点和训练数据的距离,如果数据特别多,那计算时间就很长,效率特别低。在机器学习算法里,KNN 太依赖数据了,如果训练数据里有异常点,等到要预测输出数据的时候,输出的数据可能就不准确,所以 KNN 算法对数据的容错性不好。还有,对于高维数据,KNN 算法处理起来效果也不好,因为随着维度增加,本来相似的两个样本点之间距离会越来越远,可这个算法是根据距离决定输出的,所以对高维数据分类准确性就下降了,对不均衡样本分类准确性也不好。所以就把非参数狄里赫雷混合模型用到频率幅值特征分类里了。

在狄里赫雷混合模型里,被聚类起来的簇都符合多变量高斯分布,要是有个待测数据进来,这个数据就会被分到概率最大的那个簇里。针对 K 近邻方法的那些缺点,这一章提出了一种基于狄里赫雷混合模型的无监督聚类方法,还把这个方法用在对不同流量比状态的识别上。通过实验能发现,狄里赫雷混合模型对不同流量比的熔融沉积成型打印工况分类准确率挺高的。这里还介绍了狄里赫雷分布、狄里赫雷过程以及模型建立的方法,把这两个方法融合在一起就有了狄里赫雷混合模型。最后用实验里采集的 11 种不同工况下的信号来检验这个混合模型有没有用,结果用狄里赫雷混合模型对提取的不同流量比工况下信号频率幅值特征量分类准确率是 86.8%。