第八章 临床生化诊断试验的诊断性能评价
临床诊断试验(diagnostic test)是指临床上用于某种疾病诊断的诊断方法。广义上讲,临床诊断试验不仅包括各种实验室检查、影像诊断和仪器诊断,也包括一些病史及临床检查提供的资料。临床诊断试验的性能评价内容包括技术性能评价、诊断性能评价、临床效应评价和经济效益评价。诊断性能评价的方法是基于有关流行病学调查为基础,对某种疾病的诊断方法进行评价的临床试验。它侧重于对一种新的诊断方法,包括症状、体征、检查和检验等进行评价。
临床生化诊断试验是指临床生化实验室中用于某种疾病诊断、筛查和监测的检查方法或项目。临床生化诊断试验的诊断性能评价,不同于技术性能的方法学评价,它以流行病学调查为基础,评价某种临床诊断试验在某种疾病诊断方面的诊断价值。
定性诊断试验的结果和患某病的情况之间可能出现四种关系:真阳性(True positive,TP)指经试验而被正确分类的患者的数目。假阳性(False positive,FP)指经试验而被错误分类的非患者的数目。真阴性(True negative,TN)指经试验而被正确分类的非患者的数目。假阴性(False negative,FN)指经试验而被错误分类的患者的数目。
临床诊断试验的诊断性能评价的层次包括:诊断试验对疾病诊断的准确性、有效性和可靠性;以及数据结果解释的合理性。
一、临床生化诊断试验的诊断性能评价指标
(一)临床生化诊断试验的准确性评价指标
准确性(accuracy,AC),又称真实性(validity)是诊断试验测量值与实际值的符合程度,即判断受试者有病与无病的能力。
1.灵敏度(sensitivity, Sen)又称敏感性、真阳性率(True positive rate,TPR),指在患病者中,应用该诊断试验检查得到阳性结果的百分比。灵敏度反映诊断试验正确地识别患病者的能力, 该值愈大愈好。
2.特异度(specificity, Spe)又称特异性、真阴性率(True negative rate,TNR),指在非某病者中,应用该试验获得阴性结果的百分比。特异度反映诊断试验正确地鉴别非患者的能力,该值愈大愈好。
3.漏诊率和误诊率是与灵敏度和特异度互补的两个指标。漏诊率(β),又称假阴性率(False negative rate,FNR)。反映将患者诊断错误的概率,该值愈小愈好。误诊率(α),又称假阳性率(False positive rate,FPR)。反映将非患者诊断错误的概率,该值愈小愈好。
4.诊断准确度(accuracy,AC)又称总符合率、诊断效率(diagnostic efficiency,DF),是指在患病和非患病者中,用诊断试验能准确划分患者和非患病者的百分比。反映诊断试验正确诊断患者与非患者的能力。
5.准确性评价指标之间的关系。由于灵敏度与漏诊率、特异性与误诊率存在互补关系,漏诊率和误诊率可以通过灵敏度与特异度体现出来并求得,因此,灵敏度与特异度是评价一项诊断试验真实性的两个基本指标。
(二)临床生化诊断试验的有效性评价指标
临床医师对就诊者可能患何种病的初步印象的量化指标,称为验前概率(pretest probability),验前概率的大小在总体上必须符合该病的流行率,因此,在进行计算时,验前概率等于该病的流行率。结合诊断试验的结果,得出就诊者患病可能性大小的估计称之为验后概率(post test probability),也称为预测值。
1.预测值(predictive value,PV)也称预告值或诊断价值,包括阳性预测值和阴性预测值,分别表示诊断试验结果确定或排除某种疾病存在与否的诊断概率。预测值受流行率的影响,不同流行率的人群中疾病的预告值不同。
(1)阳性预测值(positive predictive value,PPV或+PV)表示在诊断试验结果为阳性的人数中,真正患病者所占的百分率,即试验结果阳性者属于真病例的概率。也叫患病的试验后可能性。
(2)阴性预测值(negative predictive value,NPV或-PV)表示在诊断试验结果为阴性的人中,非患病者所占的百分率,即试验结果阴性者属于非病例的概率。也叫非患病的试验后可能性。
(3)流行率(Prevalence,P)表示在受检对象的总人数中,真正患病者所占的百分率,也叫患病的试验前可能性或患病率。
2.验后概率较之验前概率的符合程度和变化方向取决于诊断试验的特性,表征这种特性的量化指标称为似然比(likelihood ratio ,LR)。似然比又称拟然比,是诊断试验结果的某一特定水平在患病者中出现的可能性与在未患病者中出现的可能之比。拟然比性质稳定,不因流行率的改变而改变。
(1)阳性似然比(positive likelihood ratio,+LR或LR(+))是指用诊断试验检测患病人群的阳性率与非患病人群的阳性率之间的比值,即真阳性率与假阳性率之比。可用以描述诊断试验阳性时,患病与不患病的机会比。LR(+)提示正确判断为阳性的可能性是错误判断为阳性的可能性的倍数。LR(+)数值越大,提示能够确诊患有该病的可能性越大。
(2)阴性似然比(negative lidelihood ratio,-LR或LR(-))是指用诊断试验检测患病人群中的阴性率与非患病人群的阴性率之间的比值,即假阴性率与真阴性率之比。可用以描述诊断试验阴性时,患病与不患病的机会比。LR(-)提示错误判断为阴性的可能性是正确判断为阴性的可能性的倍数。LR(-)数值越小,提示能够否定患有该病的可能性越大。
(三)临床生化诊断试验的可靠性评价指标
诊断试验的可靠性(reliability),又称重复性(repeatability)、精密度(precision),是诊断试验在完全相同的条件下进行重复试验得到相同结果的稳定程度。理想的诊断试验应有较好的可靠性。对一项诊断试验或方法的可靠性可以用变异系数或符合率来表示。
1.评价计量资料精密度的指标为标准差和变异系数等。用变异系数则有利于相互比较。变异系数愈小,表示可重复性愈好。评价计数资料可靠性的指标为总复合率、Kappa指数等。方法是用同一诊断试验方法对同一批受检对象进行重复检测,将检测结果列四格表,然后用上述公式计算总复合率、Kappa指数等指标,进行可靠性评价。总符合率愈高,试验的可靠性愈好。
2.影响诊断实验可靠性的因素主要是生物学变异和测量变异,后者包括观察者的变异和试验方法差异。减少影响可靠性的方法是临床诊断试验的标准化,观察者的严格训练等。
(四)准确性和可靠性之间的相互关系
真实性与可靠性不是必定相关,因此,在评价诊断试验时两类指标均不可忽视。真实性与重复性的关系有四种情况:真实性与重复性都好,真实性好但重复性差,真实性差但重复性好,真实性与重复性都差。
二、参考值与医学决定水平
(一)参考值
在临床生化检验中,欲判断一个检测结果(观察值)是正常还是异常,通常需要一个参照标准。
1.参考值与参考范围的概念是指对某一规定人群进行抽样测定,由此得到的均数值及分布范围,它只能作为它所代表人群的判断参考标准。依据制定参考值的标本来源,参考值及参考范围有个体参考值及参考范围与群体参考值及参考范围两种类型。个体参考范围代表生物个体内变异,而群体参考范围反映生物个体间变异。
2.参考值的建立系指在一个地区的健康人群中,规定若干条规格标准,从参考总体中抽取一定数量的参考个体进行调查测定,将测定结果经统计学处理,求出均值()和标准差(S),通常将 定为参考值,将95%的分布区间定为参考范围(正态分布以 ±2S表示,非正态分布用百分位数表示)。参考值的建立包括参考个体、参考总体、参考样本、参考值、参考值分布、参考限、参考值范围等。
3.研究参考值及其范围应着重考虑如何保证样本的代表性和可用性。主要注意事项:①正确选择受检对象;②合理规定参考人群的条件;③保证一定数量的受检人数;④测定方法应标准化。⑤根据专业知识确定单、双侧位界,严格按照统计要求进行测定结果的处理。
(二)分界值
分界值(cut off value)又称阈值、临界值、鉴别值、指定值等,指划分诊断试验结果正常与异常的界值。即根据不同的目的,研究健康(或称非病理的)与病理的分界水平。分界值的选择方法一般是先初步确定几个分界值,分别计算真阳性、真阴性、假阳性、假阴性数值,进一步计算诊断敏感性、诊断特异性等指标,最后根据早期诊断、疗效观察、流行病学调查等各种不同目的确定分界值。
(三)医学决定水平
医学决定水平是临床按照不同病情给予不同处理的指标阈值。它不同于一般所谓的分界值(高限或低限),同一试验可以定几个医学决定水平。检查所得数据高于或低于某个医学决定水平时,医生应采取对策。一个诊断试验一般确定三个决定水平:①提示需要制定进一步检查计划的阈值,相当于待诊值;②提示需要采取治疗措施的界值,相当于确诊值;③提示预后或需要紧急处理的界值。另外,有些指标还应设置危急值(Panic Values)。危急值是累积临床的经验而得的,它不可能用参考值估出。危急值是指需要立即采取临床干预的测定值。
医学决定水平的制定不但要根据健康人群参考值,也要根据无关疾病患者的参考值及有关疾病患者分型,分期的测定值,同时还要考虑文献资料及听取对实验诊断有丰富经验的医生的意见。
三、受试者工作特征曲线
(一)ROC曲线的概念
受试者工作特征曲线(receiver operator characteristic curve, ROC曲线),最初用于评价雷达性能,又称为接收者操作特性曲线。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。
传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。
(二)ROC曲线的主要作用
1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。
2.选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。
3.两种或两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的AUC最大,则哪一种试验的诊断价值最佳。
(三)ROC曲线分析的主要步骤
1.ROC曲线绘制。依据专业知识,对疾病组和参照组测定结果进行分析,确定测定值的上下限、组距以及截断点(cut-off point),按选择的组距间隔列出累积频数分布表,分别计算出所有截断点的敏感性、特异性和假阳性率(1-特异性)。以敏感性为纵坐标代表真阳性率,(1-特异性)为横坐标代表假阳性率,作图绘成ROC曲线。
2.ROC曲线评价统计量计算。ROC曲线下的面积值在1.0和0.5之间。在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。
3.两种诊断方法的统计学比较。两种诊断方法的比较时,根据不同的试验设计可采用以下两种方法:①当两种诊断方法分别在不同受试者身上进行时,采用成组比较法。②如果两种诊断方法在同一受试者身上进行时,采用配对比较法。
(四)ROC曲线的优点
该方法简单、直观,通过图示可观察分析方法的临床准确性,并可用肉眼作出判断。ROC曲线将灵敏度与特异性以图示方法结合在一起,可准确反映某分析方法特异性和敏感性的关系,是试验准确性的综合代表。ROC曲线不固定分类界值,允许中间状态存在,利于使用者结合专业知识,权衡漏诊与误诊的影响,选择一更佳截断点作为诊断参考值。提供不同试验之间在共同标尺下的直观的比较,ROC曲线越凸越近左上角表明其诊断价值越大,利于不同指标间的比较。曲线下面积可评价诊断准确性。
四、诊断试验诊断性能的评价方法
(一)诊断试验的统计评价方法
1.医学诊断试验临床应用价值评定的基本方法是将待评价的诊断试验和标准诊断方法检测相同的受检测对象,并进行盲法比较。根据标准诊断的结果将受检测对象分成病例组(患病组)和非病例组(对照组),依据待评价的诊断试验得出阳性和阴性结果并汇入四格表中,然后对诊断试验的真实性进行评价。试验可能出现四种结果:真阳性和真阴性的试验结果是正确的,假阳性和假阴性的试验结果是错误的。
2.诊断试验评价研究的设计包括以下方面:①诊断标准;②研究对象。③测量。④资料整理与分析。诊断标准必须是金标准(gold standard),金标准指当前国内外公认的、诊断某种疾病最可靠的、在临床上能获得的肯定结论的方法。研究对象选择的关键是选择的研究对象要能代表目标人群,即诊断试验检查对象总体。根据金标准,用于评价诊断试验的受试对象将被分为病例组和对照组。诊断试验需要有足够的样本含量。病例组或对照组的样本含量可用公式计算法或查表法估计。测量方法应标准化。所谓标准化指要有具体的规定、明确的标准,如详细描述诊断方法及材料等。均衡性指两种诊断方法或两组之间应该在基础参数、实验条件各方面均衡一致,才有可比性。如受试对象的基础参数指种属、性别、年龄、体重、血压等。当样本数目很大时,只要严格按照随机化方法抽样及分组,即可大体做到均衡。当样本数目很小时,则要求提高样本的均一性和采用配对分配或多组分配的随机方法。
(二)诊断试验的评价原则
从总体来说,一种新诊断试验应当满足科学性,先进性与实用性的要求。科学性指从诊断试验的研究方法上评价其真实性的问题,即试验本身的确能真实地反映疾病的本质或病理过程。先进性要求新试验本身与原试验相比应在某项或某些方面具有优越性;敏感度与特异度是最基本的比较指标,理想的情况是二者均有所提高。实用性就是要求新试验比原试验在某项或某些方面更易于推广应用。包括仪器设备、试剂的费用大小、来源、操作难度及效率、效益、效能、副作用、对病人的危险性、病人的依从性等也应列为评价实用(可行)性的指标。
(三)提高临床诊断效率的方法
选择高患病率的人群,提高阳性预告值。通常联合使用两种或更多种的试验来提高诊断敏感性或诊断特异性。