方法
概述 分类标准的开发和测试基于两组数据和专家共识。第一,分类标准的候选条目经共识法产生并用现有的资料库进行测试(19,20)。第二,应用多目标决策分析以减少候选项目及进行初步权重分配(21)。重复测试分类标准使之能够应用于预期的SSc病例及非SSc对照病例,并与专家临床判断进行比较。第三,在确认的SSc患者队列中进行测试并与以往的标准进行比较。
条目生成及缩减 应用2项Delphi 检测确定了168条候选标准。3回合Delphi 检测及面对面专家共识研讨会应用名义群体决策技术将168个条目减少至23个。用现有数据库抽取随机样本(783例SSc患者及1071例类似SSc的患者)进行测试,发现此候选条目的区别效度较好。
条目减少及权重 分类标准草稿。4位欧洲及4位北美的SSc专家召开了一个面对面会议进一步对条目进行缩减,并应用多目标决策检测对条目进行初步权重分配。预先限制专家数目为8位,邀请其的依据包括其地理代表性、系统知识及临床诊断观点及其实用性等。会上,专家视针对同一病例时的一致性确定某条目是否保留,或某条目是否有充分的证据成为SSc患者可应用的分类标准。随后专家们分享了多目标检测结果并进一步对23条目进行初步权重分配(21)。专家们假设了2个病例,每次用23个条目里的两个进行检测(例:无雷诺现象和甲襞微血管异常/有雷诺现象和甲襞微血管异常,所有临床表现都用此方法反复考量)。当出现某一对临床现象更可能是SSc时,则单独启动电子投票。投票结果立即公布。如果没有得到专家的完全赞同,则考虑进入第二轮投票。作为二选一的结果确定条目排位,并应用1000Minds 决策软件进行权重(21)。方法的细节补充详见参考条目22。
起始阈值识别 委员会准备了45例SSc患者的病情摘要,这些患者均为分类困难的病例。22位SSc专家参与鉴别病例能否明确诊断为SSc。多目标决策分析所得到的分类标准草稿应用于这45个病例,并为每个病例评分。比较SSc专家排序和基于评分系统的排序以对评分系统进行检测。预期专家认为更接近SSc诊断的病例,其评分更高。基于这个结果确定SSc评判的起始阈值。
迭代变化的缩减和测试 接下来,委员会缩减条目、简化权重并降低了阈值分数。首先,在13个北美SSc中心和10个欧洲SSc中心收集候选条目相关数据。共收集了基于医师意见诊断的368例SSc序贯观察患者的数据,其中患病时间最长者为2年(从第一次出现非雷诺现象的症状算起),以确保将早期患者包括在内。并收集237例序贯观察的类硬皮病样疾病患者(包括嗜酸性筋膜炎[亦称伴嗜酸性粒细胞增多性弥漫性筋膜炎]、硬化性粘液水肿、系统性红斑狼疮、皮肌炎、多肌炎、原发性雷诺现象、混合型结缔组织病、未分化结缔组织病、泛发性硬斑病、肾源性系统性硬化、糖尿病手关节病变等)的数据。从这605例患者中随机抽取了100例SSc患者及100例对照(北美病例和欧洲病例各占50%)作为衍生样本。剩余的268例SSc患者和137例对照作为较度样本。患者数据采集前经董事会伦理委员会批准。
委员会对草稿体系进行了反复的更改,如上所述在衍生样本队列中及时进行反复的验证。应用衍生样本队列,去除了出现频率低的条目及冗余条目。通过合并类似的条目更改权重为单一数值。简化权重以对初步的阈值数字做出评价。所有提议进行改变的影响通过标准评价衍生样本队列时的敏感性和特异性进行评估。用递交了病例和对照的专家的诊断作为敏感性和特异性的评判参考标准。同时,分类标准的变更用38个从难以鉴别到经典不等的病例进行检测。因此,某些条目的权重被调整以适应整个体系的评分,这一评判以专家对归类为SSc的病例的评价为参考标准。
校验 最终分类标准体系用由SSc和对照病例组成的效度样本进行独立检测。敏感性和特异性适合于1980年ACR制订的初步分类标准(3)、2001年LeRoy和Medsger提出的分类标准(6)及最新制订的分类标准。准确的双侧置信区间适用于敏感性和特异性。ACR标准和LeRoy/Medsger标准应用四格表和McNemar’s卡方检验及连续校正与新标准进行比较。并应用病程≤3年的小患者样本群对每个标准分别进行检测。最后,在一个包含38个精选病例的样本内将分类标准与专家共识进行检验。