#子宫内膜癌#是全世界女性中最常见的妇科癌症类型,其发病率和死亡率都呈上升趋势。临床上,子宫内膜癌根据其分级、分期、激素受体表达和组织学特征进行分型。组织学亚型由病理学家在对肿瘤样本的苏木精和伊红(HE)染色的组织样本载玻片进行彻底检查后确定。子宫内膜样亚型肿瘤(Endometrioid)通常表现出腺体生长模式,而浆液性亚型(Serous)的特点是经常出现复杂的乳头状模式。然而,这些特征并不是这两种亚型所独有的,这使得组织学分类具有挑战性,即使对于经验丰富的病理学家来说也是如此。癌症基因组图谱(TCGA)的多组学研究基于突变特征、拷贝数改变和微卫星不稳定性引入了一套标准,将子宫内膜癌分为四种分子亚型,即DNA聚合酶ε(DNApolymeraseepsilon,POLE)突变型、MSI-H型、低拷贝数型(CNV-L)和高拷贝数型(CNV-H)。近年来,这种分子分类标准在病理学家和临床医生中越来越受欢迎。外显子组测序还揭示了一些跨四种分子亚型差异突变的基因,其中许多已被证明在子宫内膜癌的肿瘤发生和增殖中发挥重要作用,并且可能成为个体化治疗的目标。例如,大多数高拷贝数型患者是TP53突变但PTEN野生型。确定分子亚型和单基因突变可以补充和完善组织学分类的见解,但这些信息的可用性受到测序时间和成本的限制。
年9月21日,来自纽约大学格罗斯曼医学院(NYUGrossmanSchoolofMedicine)的DavidFeny教授团队在CellReportsMedicine发表了题为Predictingendometrialcancersubtypesandmolecularfeaturesfromhistopathologyimagesusingmulti-resolutiondeeplearningmodels的研究文章,介绍了使用其团队开发的多分辨率深度学习模型从组织病理学图像中预测子宫内膜癌亚型和分子特征的研究成果。该模型实现了高精度并在独立数据集上具有良好的泛化能力。研究结果表明,该模型具有临床应用潜力,可帮助病理学家在无需测序的情况下确定子宫内膜癌的分子亚型和突变。
Feny教授指导的博士生洪润瑀等人设计了一个称之为“百眼巨人”(Panoptes)的利用组织病理学图像文件的多分辨率结构的定制卷积神经网络架构。这种架构的模型可以根据组织病理学图像对常见的子宫内膜癌组织学亚型、分子亚型和几种关键突变进行分类,并在大多数表现最佳的任务中胜过现有的模型。通过使用T分布随机近邻嵌入(tSNE)降维技术,该团队提取并可视化了模型学习到的特征。这些组织病理学特征大多是人类可解释的,这表明将它们纳入病理诊断标准的可能性。该研究使用了来自癌症基因组图谱和临床蛋白质组学肿瘤分析联合会(CPTAC)的染色肿瘤切片样本来训练、验证和测试模型。此外,通医院的独立临床数据集上测试关键预测任务的训练模型,模型的普遍性和潜在的临床应用能力得到了验证。
图1.图文摘要
根据接收者操作特征曲线下的面积(AUROC),研究者观察到Panoptes模型是前七项预测任务中的六项中的最佳架构。还观察到Panoptes在大多数任务中的表现优于Inception和InceptionResnet模型。为了验证Panoptes的性能是否优于InceptionResnet,本研究对Panoptes模型与其对应的InceptionResnet模型之间的前九个预测任务的AUROC性能进行了1尾t检验。Panoptes2是大多数任务中最好的Panoptes架构,在每个患者级别的六个预测任务和每个区块级别的八个预测任务中,AUROC显着高于相应的InceptionResnet2。类似地,在每个患者级别的五个预测任务和每个区块级别的八个预测任务中,Panoptes1的AUROC显着高于InceptionResnet1。Panoptes2在将样本分为子宫内膜样或浆液性组织学亚型时,每名患者级的AUROC水平达到了0.(95%CI:0.-1),F1评分为0.75。在每位病人的水平上准确率为1和召回率为0.6分别。对于分子亚型任务,该研究将所有架构应用于四个二元任务,每个任务旨在预测一种分子亚型与所有其他分子亚型。Panoptes1在预测高拷贝数型方面实现了每位患者级的AUROC为0.(95%CI:0.-1),而所有其他Panoptes模型的AUROC均高于0.88,比基线模型高出5.8%至23.3%。当使用0.5作为预测分数的截止点时,该模型还实现了0.的灵敏度和0.的特异性。对于低拷贝数型,Panoptes1实现了每位患者级的AUROC为0.(95%CI:0.-1),比基线模型高出12%。F1分数为0.75,精度为0.,召回率为0.。对于MSI-H,最好的每位患者级的AUROC是0.(95%CI:0.-0.),F1分数为0.。POLE亚型分类模型实现了每位患者级的AUROC为0.(95%CI:0.-0.)。
尽管大多数高拷贝数型病例属于浆液性亚型,但一部分高级别子宫内膜样癌也被归类为高拷贝数型。为了进一步评估机器学习模型是否可以捕获这种组织学亚型中的异质性,研究人员训练了模型来预测子宫内膜样样本中的高拷贝数型。Panoptes1架构能够在此任务中实现每位患者级的AUROC为0.(95%CI:0.-1),F1分数为0.,这表明该模型利用与组织学亚型不密切相关的特征来预测分子亚型。在此任务中,所有Panoptes模型也胜过基线模型。此外,作者训练了模型来预测18个基因的突变状态。Panoptes2预测TP53突变在每位患者级的AUROC为0.(95%CI:0.-0.),F1分数为0.56。使用Panoptes2(具有临床特征分支的改进型架构)预测FAT1突变在每位患者级的AUROC为0.(95%CI:0.-1),F1分数为0.。其他基因突变,包括ZFHX3、PTEN、FGFR2、MTOR、CTCF和PIK3R1,其每位患者级的AUROC也都高于0.7。
为了可视化和评估模型学习的特征,作者在测试集图块的最终完全连接层之前提取了激活图。这些激活图被T分布随机近邻嵌入技术降维后,其中每个点代表一个采样图块,并根据正预测分数进行着色。正如所料,采样图块通常按其预测组进行聚类。例如,预测的组织学浆液性和子宫内膜样的特征截然不同。在浆液性亚型预测得分高的集群中,研究观察到典型的浆液性癌特征,例如高核分级、乳头状生长模式、有丝分裂活动增加和裂隙样空间。预测的子宫内膜样病例群中的采样图块显示出低核级别、腺体生长模式、筛状结构和鳞状分化。子宫肌层和其他非肿瘤组织块位于T分布随机近邻嵌入图的中间,预测分数在0.4和0.6之间。这些观察表明,该模型能够专注于肿瘤区域,并根据病理专家认可的组织学特点进行预测。
分子亚型预测模型学习的特征也用相同的特征提取方法揭示。研究者注意到,在高拷贝数型预测模型中,在预测的高拷贝数型簇中识别出两个不同的亚组,分别与组织学浆液性和高级别子宫内膜样亚型相关。预测的高拷贝数型浆液块大多表现出高核级、腺体形成和有丝分裂活性升高,而预测的高拷贝数型高级别子宫内膜样块表现出固体生长模式和局灶性腺体分化。相比之下,在非高拷贝数型簇中,主要是低级别子宫内膜样癌,具有低核级、腺体形成和鳞状分化。为了确认肿瘤分级是区分子宫内膜样样品中高拷贝数型的主要因素,作者对比了仅在子宫内膜样图像上训练的高拷贝数型预测模型学习的特征。正如所料,高级别子宫内膜样癌块主要在高拷贝数型簇中观察到。在这两种高拷贝数型模型中,模棱两可的区域大多被非肿瘤组织占据。该研究还可视化了MSI-H亚型模型学习的主要性状。MSI-H亚型集群中的图块主要是具有腺体形成、肿瘤浸润淋巴细胞和肿瘤周围淋巴细胞的低级别子宫内膜样癌,这与观察到的MSI-H亚型肿瘤的重突变负荷导致高免疫原性和宿主免疫反应的观察结果一致。除了亚型之外,还揭示了与某些突变相关的性状。
图2.Panoptes预测模型甄别不同分子亚型之间的特征差异
为了确保模型的通用性,尤其是那些具有Panoptes架构的模型,除了混合随机数据拆分之外,作者还采用了群组独立数据拆分,并从头开始重新训练了所有预测模型。同时,为进一步说明潜在的临床能力,该团队医院的独立临床数据集上测试了一些关键预测任务的模型,包括组织学亚型,高拷贝数型,低拷贝数型、MSI-H亚型和TP53突变。该临床数据集在组织学上更加多样化,因为它不仅包含浆液性和子宫内膜样样本,还包含罕见的组织学亚型样本,包括透明细胞、癌肉瘤和混合组织学样本。
该研究证明了Feny教授团队研发的多分辨率卷积神经网络架构Panoptes有可能发展成为一种帮助病理学家对子宫内膜癌组织学亚型进行分类及提供有关患者分子亚型和突变状态的额外信息的快速实用工具。除了每个患者级预测之外,该模型还能够突出显示具有人类可解释特征的区域。该团队相信这些基于人工智能的模型有可能揭示人类专家传统上不会