人体微生物广泛分布于皮肤、口腔、肠道等部位,构成复杂的生态系统。研究表明,微生物组的失调与炎症性肠病、过敏、哮喘乃至多种癌症密切相关。随着高通量测序技术的发展,如宏基因组测序、转录组、蛋白质组和代谢组分析,研究者得以从多个维度解析微生物组功能。然而,这些数据往往具有高维度、稀疏性和异质性,传统的生物信息学方法难以充分挖掘其潜在价值。随着人工智能技术的引入,尤其是机器学习与深度学习方法的广泛应用,微生物组研究正经历从数据处理到多尺度挖掘与机制解析的深度革新。人工智能不仅显著提升了对复杂组学数据的解析能力,也为揭示人体微生物组与健康及疾病之间的关联、拓展相关临床应用提供了全新路径,从而加速了研究范式从传统的假设驱动向数据驱动的转变。
2025年9月22日,中国科学院动物研究所赵方庆团队在Gut上发表题为AI-empowered human microbiome research的综述,系统梳理了人工智能在人体微生物组研究中的应用现状与未来趋势,提出人工智能技术正引领该领域从传统统计方法向数据驱动的智能分析转型。
AI方法的引入:从假设驱动到数据驱动
传统的微生物组研究多以假设驱动为主,即研究者基于已有生物学知识提出假设,再通过实验验证。例如,假设某种菌群在某类疾病中丰度下降,随后设计实验采集样本、测序分析、统计检验。这种方法虽然严谨,但在面对高维度、多组学、非线性的数据时,往往难以捕捉复杂的微生物–宿主交互模式,也容易受到主观偏见的影响。随着组学技术的进步,微生物组数据呈指数级增长,涵盖宏基因组、转录组、蛋白质组、代谢组等多个维度。面对如此庞杂的数据体系,AI技术的引入成为研究范式转型的关键驱动力(图1)。
AI方法全景图:从数据预处理到功能解析
在微生物组研究中,AI方法的应用贯穿整个数据分析流程,从原始数据的预处理,到特征提取、结构建模,再到动态预测与功能注释,构成了一个高度集成的智能分析体系(图2)。本文首先强调了数据预处理的重要性。由于微生物组数据常来自不同实验平台、样本来源和测序批次,存在显著的批次效应与技术偏差。为此,研究者引入了如ConQuR等方法,这些工具能够在保留生物学差异的前提下,有效消除非生物学性变异,从而提升跨队列分析的稳定性与可靠性。这一环节为后续AI建模奠定了坚实的数据基础。在特征提取与表示学习阶段,研究者开始采用Word2Vec、BERT等嵌入方法,将微生物序列转化为低维、语义丰富的向量表示。这些方法被用于学习微生物组的深层次结构特征,显著提升了分类与表型预测的准确性。由于微生物之间存在复杂的共现关系、代谢互作与生态网络,传统的线性模型难以捕捉这种非欧几里得结构。面对多样化的数据类型,研究者采用了包括监督学习与非监督学习在内的多种建模方法。这些针对性的策略不仅显著提升了分类性能,也为微生物组功能的预测提供了更具生物学解释力的分析框架。
多尺度AI建模:从群落到分子层级
在微生物组研究中,理解微生物与宿主之间的关系,不能仅停留在单一层级。本文通过构建了一个清晰的多尺度建模框架,展示了AI技术如何在群落、物种和分子三个层级上协同发力,实现从宏观生态到分子机制的系统解析(图3)。
· 群落层级(Community level):AI模型在这一层级的应用主要体现在两个方面。首先是群落组成的预测。通过深度学习模型(如CNN、Transformer等),研究者可以从宏基因组数据中预测微生物的丰度分布和功能潜力。例如,模型可识别特定疾病状态下群落的失衡模式,如IBD患者中拟杆菌门的显著减少。其次是群落的动态建模。利用时间序列模型(如LSTM、TCN),AI可模拟微生物群落在不同时间点的演化过程,识别关键转折点或干预窗口。这对于理解抗生素使用、饮食变化或疾病进展对微生物组的影响尤为重要。
· 物种层级(Species level):研究目标转向具体微生物种类的功能角色与临床意义。通过特征选择算法(如SHAP)或图神经网络,AI可从数千种微生物中筛选出与疾病显著相关的“核心物种”。例如,Faecalibacterium prausnitzii被识别为抗炎关键菌株,在多种肠道疾病中呈现保护性作用。此外,结合微生物丰度数据与临床指标,AI模型可构建分类器(如随机森林、XGBoost),用于疾病诊断、亚型识别或治疗响应预测。
· 分子层级(Molecular level):分子层级是微生物组研究中最具挑战性但也最具潜力的部分。大量微生物基因尚未被注释,尤其是来自未培养微生物的序列。AI,特别是大语言模型(LLMs),在这一领域展现出突破性能力。如ESM2模型的成果,该模型基于Transformer架构,已成功预测超过6亿个微生物蛋白结构,构建了ESM Metagenomic Atlas。这一数据库为未注释蛋白提供了结构线索,极大拓展了微生物功能空间。
这篇综述文章还总结了AI赋能的微生物组研究在临床应用中的最新进展,更提出了未来发展的关键方向。AI技术正从数据处理工具,转变为揭示微生物与宿主关系的“智慧引擎”,为疾病诊断、个性化治疗与精准干预提供新路径。尽管AI在微生物组研究中展现出巨大潜力,但仍面临一些挑战,如模型可解释性不足,泛化能力有限,以及数据治理问题等。文章呼吁建立跨学科合作机制,融合生物学、计算机科学、医学与伦理学力量,共同推动AI在微生物组研究中的应用。在数据驱动的时代,AI赋能微生物组研究,不仅是技术革新,更是理解生命本质的新窗口。
该综述由中国科学院动物研究所赵方庆研究员团队完成,博士研究生周田为第一作者。
原文链接:https://doi.org/10.1136/gutjnl-2025-335946
图1 AI驱动的人体微生物组学研究新范式
图2 AI驱动的微生物组数据分析框架
图3 AI在微生物组数据挖掘中的多尺度应用