2019年8月5日,清华大学医学院生物医学工程系郭永实验室在《分析学家》(Analyst)在线以封底(back cover)发表题为《一种双荧光四分类微液滴数字PCR数据的准确、可靠和自动分类方法——密度分水岭算法》(A density-watershed algorithm (DWA) method for robust, accurate and automatic classification of dual-fluorescence and four-cluster droplet digital PCR data)的研究论文,该研究将微液滴数字PCR的数据密度分布与分水岭算法(一种图像分割方法)有机结合,建立了一种微液滴数字PCR数据非监督分类的新方法。
微液滴数字PCR是一种单分子水平的核酸定量分析技术。通过将PCR反应体系分割为大量的微液滴,绝大多数微液滴内仅含有0个或1个模板分子,含有模板分子的微液滴在PCR扩增后呈现出较强的荧光信号。通过微液滴内荧光的检测,可以得到微液滴数字PCR数据。依据荧光强度对该数据进行分类,即可判断出含有模板分子的微液滴的数量和比例,最终通过泊松分布统计学计算,得到模板分子的绝对拷贝数。在上述过程中,微液滴数字PCR数据的分类是关键步骤,它直接影响到统计学计算的输入,因而决定着微液滴数字PCR定量结果的准确性。目前,微液滴数字PCR的数据分类方法主要有两种:一种是针对每种反应定制的监督分类算法,这些算法具有较高的准确性,但是针对不同的样本类型和检测指标,需要开发多种不同的分类算法;另一种是通用的非监督分类算法,但是它们的准确性和可靠性都不尽如人意,且时常会出现假阴性和假阳性的检测结果。
为了解决上述不足,研究人员模拟人眼对微液滴数字PCR数据的分类过程,将微液滴数字PCR数据作为一幅图像,提出了一种新型的数据分类方法——密度分水岭算法。该方法通过数据密度分布的判断,使用分水岭算法自动地、非监督地将网格化(图像化)的微液滴数字PCR数据沿着数据相对稀疏的位置分割为若干区域,最后通过这些区域的边界实现准确、可靠、自动的非监督数据分类(图1)。研究人员将密度分水岭算法与现有主流商业化算法进行了比较,在人类表皮生长因子受体(EGFR)的L858R和T790M突变位点的检测方面,密度分水岭算法实现的检测限是现有主流商业化算法的1/40,显著地提高了微液滴数字PCR自动化检验的检测能力。研究人员进一步使用Bio-Rad QX200和新羿TD-1两种微液滴数字PCR系统,在254例冰冻组织、石蜡包埋组织和外周血临床样本上验证了密度分水岭算法,其中绝大部分(>84%)临床样本的定量结果优于现有主流商业化算法,且全部临床样本未出现假阴性和假阳性的检测结果。
图1. 密度分水岭算法实现微液滴数字PCR数据自动分类的原理及Analyst杂志封底
该研究为微液滴数字PCR的临床应用提供了一种新的自动化数据分析思路,有望用于临床的全自动核酸绝对定量。随着精准医疗的发展,开发准确、可靠、全自动的单拷贝核酸定量分析方法对于疾病的筛查、诊断、用药指导、病情监测和预后均具有重要意义。
清华大学医学院的朱修锐博士为该论文的第一作者,医学院郭永研究员和精仪系荆高山博士对该研究进行了指导,北京新羿生物科技有限公司参与了合作研究。本课题得到国家自然科学基金和北京新羿生物科技有限公司横向合作课题等经费资助。