baimian-machine-learning-20230921

Last updated on 2023年9月22日 早上

图像分类任务中,训练数据太少的问题

  • 使用数据增强方法(旋转、缩放、平移、添加高斯噪声等变换)
  • 特征层面上可以使用上采样等
  • 微调(Fine-tuning)

模型的评估指标

Accuracy(准确率)表示:分类正确的样本数量占总样本数量的比例,当不同类别的样本占比较大时,模型的分类能力会更多地取决于占比较大的样本类别,那么此时就可以使用每个样本下的准确率的平均值作为判定标准(叫做平均准确率)。

精确率表示:分类正确的样本数占分类器判定为正样本的样本个数的比例。

召回率表示:模型分类正确的正样本个数在数据中实际正样本个数中所占的比例。

对模型性能的综合评估不仅需要看TopN的精确率和召回率,同时还需要关注P-R曲线。

P-R曲线的横轴是召回率,纵轴是精确率,PR曲线上的一个点表示,在某个阈值下,模型将大于该阈值的分类结果化为正样本,小于该阈值的分类结果划分为负样本,此时返回结果对应的召回率和精确率。整个PR曲线是将阈值从大到小进行设置而生成的。

F1 score是精确率和召回率的调和平均值:
$$F1_score = \frac{2 \times precision \times recall}{precision \times recall}$$

RMSE指标存在的问题:如果存在极少数的样本预测值与实际的样本值之间存在很大的差距,那么即便模型预测能力很好,也会存在RMSE值很高的情况。应对RMSE值很高的情况的方法:1.去除这些离群点(去噪);2.将离群点作为正常的模型训练阶段的输入,让模型适应这些离群点;3.寻找更加合适的指标来评估模型(例如:平均绝对百分比误差MAPE,相较于RMSE来说,MAPE对每个离群点进行了归一化);

ROC曲线

ROC曲线是评估二分类器性能的最重要指标之一。

ROC叫做受试者工作特征曲线。

ROC的横坐标称为假阳性率FPR,纵坐标为真阳性率TPR,其中FPR和TPR的计算公式分别为:
$$FPR=\frac{FP}{N}$$
$$TPR=\frac{TP}{P}$$
上式中,P为真实的正样本数量,N为真实的负样本数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。

实际上,ROC曲线是通过不断移动分类器的“截断点”来生成曲线上的一组关键点的。所谓的“截断点”实际上就是区分模型预测输出的结果是正样本还是负样本的阈值。

AUC面积如何计算

AUC是ROC曲线下面积,计算的时候只需要对ROC曲线沿着横轴进行积分即可。实际上,一般来说ROC曲线的点都在y=x这条线的上方,也就是说计算出来的分类器的AUC一般在0.5-1之间,且计算出来的AUC面积越接近1,说明模型的分类性能越好。

ROC曲线相对于PR曲线有什么特点?

ROC曲线在正负样本发生变化时,曲线基本不变,但是PR曲线会发生剧烈的变化。这个特点可以使ROC曲线能够尽量降低测试集变化所带来的干扰,更加客观地衡量模型本身的性能。

余弦距离的应用

相同的两个向量之间的余弦相似度为1,余弦距离为0。

为什么使用余弦相似度计算两个向量之间的距离而不是使用欧式距离?
回答:余弦相似度重点关注的是两个向量之间的夹角角度问题,其取值范围为[-1,1]。举个例子,当两个向量意思相近但长度相差较大时,如果使用词频或词向量作为特征,来计算欧式距离会很大。而使用余弦相似度的话,它们之间的夹角可能很小,很相近。同时,在高维特征下,余弦相似度仍然能够保持相近的向量的余弦相似度值接近1,正交的向量的余弦相似度值为0,相反的向量得到的值接近-1。而欧式距离受向量维度的影响,范围不固定且含义模糊。


baimian-machine-learning-20230921
https://thewangyang.github.io/2023/09/21/baimian-machine-learning-20230921/
Author
wyy
Posted on
2023年9月21日
Updated on
2023年9月22日
Licensed under