单细胞多组学测序技术的迅速发展,使得同时测量基因表达和染色质可及性成为可能,提供了单细胞分辨率下基因调控机制的整体景观。细胞类型注释是单细胞多组学数据分析的核心步骤。常见的细胞类型注释方法是首先进行无监督聚类,然后根据先验知识手动为每个簇分配细胞类型标签。然而,随着被分析的细胞数量呈指数级增长,手动注释方法面临着难以复制且十分耗时的缺点。
另一种更有效且准确的方法是进行细胞类型自动注释,即利用已标注的数据集来训练模型,然后利用训练好的模型注释新生成的数据集。目前,已有多种专为单细胞转录组数据或单细胞染色质可及性数据设计的计算方法。这些单组学注释方法可以应用于单细胞多组学数据的细胞类型注释任务,即利用一种组学类型来确定每个细胞的细胞类型。然而,单组学注释方法星空体育官方入口 星空体育官网未能充分利用多组学数据的信息,限制了它们捕捉细胞复杂性和多样性的能力。因此,迫切需要开发一种专为单细胞多组学数据设计的细胞类型自动注释方法。

MultiKano引入了一种基于配对单细胞多组学数据的数据扩增策略,并结合了Kolmogorov-Arnold网络(KAN)来增强模型的泛化能力。MultiKano的架构分为三个主要模块:数据预处理模块、数据扩增模块和KAN模块。具体来说,对于给定的配对单细胞多组学数据集,MultiKano首先对两种组学数据分别进行预处理。为了更有效地捕捉单细胞多组学数据中的细胞异质性,MultiKano进一步引入数据增强模块。这一模块的基本原理是,相同细胞类型的两个细胞具有相似的生物学特性,因此可以使两个细胞的不同组学数据相匹配来生成仿真细胞。最后,MultiKano利用KAN模型进行训练。KAN模型基于Kolmogorov-Arnold表示定理,其特点是完全没有线性权重矩阵,每个权重参数都被可学习的一维函数所替代,具有较强的灵活性和泛化能力,能够有效学习复杂的非线性映射,并降低过拟合的风险。
在多个数据集上进行的综合实验表明,MultiKano不仅较于使用单组学数据的注释方法具有优越性,还优于使用多组学数据的传统机器学习方法。模型消融实验进一步证实了MultiKano中各个模块的有效性。此外,MultiKano在包含不同数量细胞类型的数据集的注释中表现出稳定性,验证了其处理复杂数据集的强大能力。更为重要的是,MultiKano在跨数据集的注释实验中展现出良好性能,显示了其在实际应用场景中的显著优势。通过进行GO富集分析、KEGG通路富集分析、GREAT分析和SNP富集分析等一系列下游分析,MultiKano进一步展示了其在揭示复杂生物系统内在机制方面的巨大潜力。
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
政府败诉! 新冠疫苗引发13种严重副作用, 损伤心脏和神经! 接种后身体被毁, 获永久赔偿
股东捐给上市公司4000万元,是他去年年薪的40余倍!他曾在教育战线任教,还担任过公司董事长、总经理
周杰再度星空体育官方入口 星空体育官网发文追忆琼瑶,字里行间流露线岁刘德华红馆开演唱会,获众多年轻女生捧场
搭载鲲鹏超能混动C-DM 奇瑞风云T11PT车下线PLUS Ultra官图发布 预计12月上市
山东城市建设职业学院·柬埔寨首期中文初级培训班 ——“中文+职业技能培训项目” 顺利开展
IDC:预计明年中国智能家居市场出货 2.81 亿台,同比增长 7.8%
