今天给大家讲一篇年8月腾讯在naturemachineintelligence上发表的药物-靶标相互作用的一篇文章,作者提出了一种用于单细胞RNA-seq数据的细胞类型注释的大规模预训练语言模型scBERT。该模型通过BERT的预训练和有监督的微调方法,首先scBERT通过对大量未标记的scRNA-seq数据进行预训练,获得了基因-基因相互作用的信息;然后,针对未知的scRNA-seq数据的细胞类型注释任务中进行微调。研究验证了scBERT在细胞类型注释、发现新的细胞类型和模型可解释性方面的优异性能。
单细胞RNA测序研究背景
单细胞RNA测序(scRNA-seq)已用于单细胞水平的复杂组织和生物体的表征。在scRNA-seq上准确的细胞类型注释对于生物学和医学研究至关重要。细胞类型注释方法主要分为三种类型,其一是使用标记基因进行注释,其二是使用基于相关性的方法进行注释,第三种就是通过使用基于监督分类的方法进行注释。
如果没有适当的方法来整合多个标记基因的表达信息,就很难对每个细胞分配一个细胞类型。上述方法也有缺陷,比如基于相关性的方法测量了查询样本和参考数据集之间的基因表达谱的相关性,而不是依赖于标记基因的一个部分。同时,常用的相似度度量在测量两组高维稀疏scRNA-seq数据之间的距离时并不鲁棒。
模型框架
2.1scbert算法
作者首先用数百万的未标记scRNA-seq数据与不同来源的细胞类型进行预训练。与原始bert相同,包括字符以及位置编码的嵌入表示,由于共表达的基因保留了更接近的表征,并且基因的分布表征有助于捕获基因-基因之间的相互作用。模型架构如图1所示,包括预训练和微调两个部分,并且二者共享编码器,来标记特定领域的scRNA-seq数据。由于bert的输入维度限制在,并且大多数scRNA-seq数据包含超过10,个基因。因此,作者用Performer替换了Bert中的编码器来提高模型的可扩展性。
图1Scbert模型架构
2.2基因嵌入表示
基因嵌入:Bert模型的输入是单词嵌入,即向量空间中的一组实值向量。因此,作者利用gene2vec来特异性编码基因嵌入。
表达嵌入:由于单词在文本中出现的频率对于文本分析很有意义,基因表达也是生物系统中每个基因的发生与否。作者将基因出现频率转换为维向量,然后作为scBERT模型的标记嵌入。
2.3对无标记数据的自监督学习
Bert模型中的mask操作是随机屏蔽输入数据,并在剩余输入的基础上进行预测。作者在Scbert中随机掩盖非零基因的表达,然后使用剩余的基因通过模型预测重构原始输入。用交叉熵损失函数作为重构损失。通过这种自监督策略,该模型可以在大量的未标记数据上学习基因潜在表达模式。
2.4特定任务的有监督学习
由于scBERT的输出为每个基因对应的维特征,作者先对每个基因进行一维卷积的特征进行信息提取。然后应用三层多头感知机进行分类,将基因特征转化为每种细胞类型的概率。同样用交叉熵损失函数表示细胞类型标签的预测损失。
实验结果
3.1细胞类型注释的鲁棒性
作者对于每个数据集都采用了五折交叉验证,如图2所示,通过箱型图比较Scbert和其他基准模型分别在六个数据集上的性能,可以看出scBERT在准确性和f1分数上都超过了基准方法。
图2各个基准模型在各个数据集上的性能
3.2人类胰腺数据上细胞注释
作者先通过对scBERT和基准方法进行了比较,如图3所示,scBERT正确注释了Muraro数据集中的大部分细胞,以及其他三个数据集中超过99%的细胞,表明该方法在跨数据集的任务上优异的性能。相比之下,scNym模型将Alpha细胞错误地分类为Beta细胞类型,并混淆了Beta细胞和delta细胞。
图3对四个独立数据集的t-SNE投影
3.3模型可解释性
作者展示了由scBERT在胰腺细胞类型注释任务上的注意力权重的热力图。如图4所示,并且每种细胞类型都列出了具有最高注意力权重的前10个基因。此外,还统计了最不同细胞类型中的高注意力得分的10个基因之间的标准分数。每个点的大小和颜色反映了标准分数。
图4细胞基因中的热力图分析
结论
作者提出了一种新的模型scBERT,并超过了现有的基准方法,此外,还提出该模型的改进的两个方面,其一是原始BERT的标记嵌入是离散变量,而基因在单个细胞中的表达量为连续值,直接将离散值转为连续值会引入噪声,因此,对于模型输入的基因表达的嵌入仍有优化的空间。其二是训练前掩码策略是另一个值得优化的问题。scBERT中当前的掩码方法简化为非零掩蔽。然而,只掩码非零值可能会降低单细胞预训练数据的利用率,因为非零值在矩阵中非常稀疏。可以引入针对单细胞数据的高级掩蔽策略,以提高掩码的计算效率。
参考文献
Wang,T.etal.MOGONETintegratesmulti-omicsdatausinggraphconvolutionalnetworksallowingpatientclassificationandbiomarkeridentification.Nat.Commun.12,1–13()
版权信息
本文系AIDDPro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDDPro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDDPro(请添加