您好、欢迎来到现金彩票网!
当前位置:ds视讯 > 分布负载 >

分类问题统计指标入门:混淆矩阵、召回、误检率、AUROC

发布时间:2019-07-06 23:36 来源:未知 编辑:admin

  大多数时候,AUC都是指AUROC,这是一个不好地做法,正如Marc Claesen指出的那样,AUC有歧义(可能是任何曲线),而AUROC没有歧义。

  在讨论ROC曲线(接受者操作特征曲线)之前,我们需要理解混淆矩阵(confusion matrix)的概念。一个二元预测可能有4个结果:

  我们预测0,而线:这被称为真阴性(True Negative),即,我们正确预测类别为阴性(0)。比如,杀毒软件没有将一个无害的文件识别为病毒。

  我们预测0,而线:这被称为假阴性(False Negative),即,我们错误预测类别为阴性(0)。比如,杀毒软件没有识别出一个病毒。

  我们预测1,而线:这被称为假阳性(False Positive),即,我们错误预测类别为阳性(1)。比如,杀毒软件将一个无害的文件识别为病毒。

  我们预测1,而线:这被称为真阳性(True Positive),即,我们正确预测类别为阳性(1)。比如,杀毒软件正确地识别出一个病毒。

  我们统计模型做出的预测,数一下这四种结果各自出现了多少次,可以得到混淆矩阵:

  在上面的混淆矩阵示例中,在分类的50个数据点中,45个分类正确,5个分类错误。

  当比较两个不同模型的时候,使用单一指标常常比使用多个指标更方便,下面我们基于混淆矩阵计算两个指标,之后我们会将这两个指标组合成一个:

  真阳性率(TPR),即,灵敏度、命中率、召回,定义为TP/(TP+FN)。从直觉上说,这一指标对应被正确识别为阳性的阳性数据点占所有阳性数据点的比例。换句话说,TPR越高,我们遗漏的阳性数据点就越少。

  假阳性率(FPR),即,误检率,定义为FP/(FP+TN)。从直觉上说,这一指标对应被误认为阳性的阴性数据点占所有阴性数据点的比例。换句话说,FPR越高,我们错误分类的阴性数据点就越多。

  为了将FPR和TPR组合成一个指标,我们首先基于不同的阈值(例如:0.00; 0.01, 0.02, , 1.00)计算前两个指标的逻辑回归,接着将它们绘制为一个图像,其中FPR值为横轴,TPR值为纵轴。得到的曲线为ROC曲线,我们考虑的指标是该曲线的AUC,称为AUROC。

  在上图中,蓝色区域对应接受者操作特征曲线(AUROC)。对角虚线为随机预测器的ROC曲线. 随机预测器通常用作基线,以检验模型是否有用。

  索尼推出了X8000G系列液晶电视,进一步丰富了2019年液晶电视的产品矩阵

http://emeklishop.net/fenbufuzai/796.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有