临床预测模型(clinical prediction model),是指利用数学模型估计研究对象当前患有某病的概率或者将来发生某种结局的可能性。也就是说,临床预测模型是通过已知特征来预测未知,而模型就是一个数学公式,也就是把已知的特征通过这个模型计算出未知结局发生的概率。
(资料图)
临床预测模型作为临床研究的“高阶玩法”,不仅仅是改变临床实践的重要途径,更是发表高分SCI文章的热门选择。
临床预测模型一般就是通过各种回归分析方法建模,而回归分析的统计学本质就是发现“量化的因果关系”。简单讲,回归分析是一种X多大程度上影响Y的量化刻画。常用方法包括线性回归模型、Logistic回归模型、Cox回归模型等。其中预测模型效能评价与验证是统计分析、数据建模、课题设计的关键所在,也是数据分析技术含量最高的部分。
但不论零基础的小白,还是已经了解过临床预测模型的作者,刚开始都会一头雾水。今天,我们通过一篇SEER数据库文章,分别用R语言和风暴统计来展示构建Logistic预测模型并且进行效能评价与验证的全过程。
Logistic构建预测模型系列主要以一篇基于logistic回归构建预测模型的文章为例,从整理数据到构建预测模型,再到内部验证模型,包括了整理数据、随机数据拆分、基线描述、差异性分析、绘制ROC曲线并计算AUC值、HL检验及绘制校准曲线、构建列线图模型并绘制DCA曲线,基本涵盖了Logistic构建预测模型的全过程,敬请期待!
本文主要介绍对案例文献的解读,案例文献是一篇基于SEER公共数据库的一项回顾性研究,旨在开发和验证列线图以预测脑转移的非小细胞肺癌患者早期死亡。
摘要
背景:在非小细胞肺癌(NSCLC)的整个病程中,很多患者会出现预后差、死亡率高的脑转移(BM)。然而,很少有模型能预测有脑转移的NSCLC患者的早期死亡(ED)。我们旨在开发列线图来预测NSCLC脑转移患者ED。
方法:从监测、流行病学和最终结果(SEER)数据库中选取了2010年至2015年间患有BM的NSCLC患者。纳入标准如下:(I)患者经病理诊断为NSCLC;(II)患者患有BM。患者按7:3的比例随机分为两组,分别为训练组和验证组。采用单因素和多因素Logistic回归方法来确定伴有BM的NSCLC患者发生ED的危险因素。建立了两个列线图,并通过校准曲线、ROC曲线和决策曲线分析(DCA)进行了验证。随访数据包括生存月数、死因和生命状态。初次诊断后3个月内的死亡定义为ED,终点为全因ED和癌症特异性ED。
结果:共纳入了4,920名患有BM的NSCLC患者,并随机分为两个队列(7:3),包括训练队列(n=3,444)和验证队列(n=1,476)。全因ED和癌症特异性ED的独立预后因素包括年龄、性别、种族、肿瘤大小、组织学、T分期、N分期、分级、手术、放疗、化疗、骨转移和肝转移。所有这些变量都用于建立列线图。在全因ED和癌症特异性ED的列线图中,训练数据集的ROC曲线下面积分别为(95% CI:)和(95% CI:),验证数据集的ROC曲线下面积分别为(95% CI:)和(95% CI:)。此外,校准曲线证明预测的ED与实际值一致。DCA临床应用前景良好。
结论:列线图可用来预测患者死亡的具体概率,有助于治疗决策和重点护理,以及医患沟通。
研究结果
非小细胞肺癌脑转移患者的人口统计学和临床特征
在SEER数据库中,总共选择了4,920名2010年至2015年间诊断为BM的NSCLC患者,患者选择的过程如图所示。
本文描述了脑转移NSCLC患者早期死亡、全因早期死亡及癌症特异性早期死亡的基线特征。
对患者在训练集和验证集中的特征进行描述,做基线差异性分析。结果显示,基线特征无统计学差异。
确定ED的预后因素
独立预测因子之间没有显著的统计共线性。
基于单因素logistic回归分析的结果,单因素分析中的所有显著变量,包括年龄、性别、种族、婚姻状况、Gleason分级、肿瘤大小、组织学、TNM分期、手术、放疗、化疗、骨转移、肝转移均纳入多因素logistic回归分析,结果表明,除婚姻状况和Gleason分级外的变量被确定为预测全因ED的独立因素;此外,除性别和婚姻状况外的变量被确定为预测癌症特异性ED的独立因素。
列线图预测模型的建立
利用训练队列中多元逻辑回归的预后因素,建立了列线图预测模型。总分可以通过将每个变量的分数相加来计算,表明每个患者的ED的全因/癌症特异性概率。
列线图预测模型的验证
对于全因和癌症特异性ED的列线图模型,ROC曲线显示,训练队列中的AUC分别为(95%CI:)和(95%CI:),验证队列中的AUC分别为(95%CI:)和(95%CI:)。
患者列线图的校准曲线也表明观察到的结果与预测概率之间具有良好的一致性。
此外,DCA的结果表明列线图模型具有良好的临床实用性。
本文构建logistic预测模型并做内部验证,思路清晰,案例十分典型。先拆分数据集为训练集和验证集,比例为7:3,验证集用于进行内部验证。做了基线描述,比较训练集和验证集的基线差异性,再做单因素和多因素logistic回归,将单因素P值小于的因素纳入到多因素回归模型中。再根据多因素回归的结果构建列线图预测模型,并对模型进行验证,绘制ROC、校准曲线及DCA曲线,获得了阳性结果,且模型比较稳定。
案例文献使用了SEER数据库中的数据,根据文中对数据提取的描述,从软件中下载对应数据,用于后续分析。敬请期待后续系列文章!!