趋同演化是生物演化中的重要现象,指不同类群的生物在适应相似环境的过程中,独立演化出相似的功能性状,例如鸟类、蝙蝠、翼龙独立演化出扑翼飞行能力。长期以来,演化生物学领域致力于探索表型趋同背后的分子适应性演化机制。为此,传统研究方法多聚焦于蛋白序列中单个氨基酸位点的趋同变化;然而,越来越多的证据表明,即使没有明确的位点趋同,同源蛋白仍可能通过高阶结构或理化特征的趋同演化实现功能上的相似性。 

近日,邹征廷团队在《美国国家科学院院刊》(PNAS)发表题为“Language models reveal a complex sequence basis for adaptive convergent evolution of protein functions”的研究论文,提出ACEP(Adaptive Convergence by Embedding of Protein)计算分析框架,利用前沿的预训练蛋白语言模型(Protein Language Model,PLM),系统揭示了蛋白高阶特征在功能适应性趋同演化中的重要作用。 

通过在海量蛋白序列数据上进行预训练,蛋白语言模型能够捕捉序列中复杂的上下文信息和高阶特征,将蛋白序列转化为包含这些演化特征的高维嵌入向量 (embedding)。研究团队发现,即使在已知不存在位点趋同的案例中(如无颌类与有颌类独立演化出血红蛋白、嗜热原核生物蛋白理化性质的趋同等等),PLM生成的嵌入向量仍能有效反映蛋白高阶特征的相似性,表明高阶特征趋同是蛋白功能趋同的重要分子基础。 

基于这一发现,团队设计了ACEP分析流程,其核心包括三个步骤:首先计算目标类群(如能够进行回声定位的蝙蝠与齿鲸)同源蛋白嵌入向量的真实距离;随后通过模拟中性演化过程构建背景距离分布;最后基于分布对真实距离进行统计检验,判断是否存在显著的高阶特征趋同信号。ACEP在多个经典的已知案例中得到显著结果,如在回声定位哺乳动物的Prestin蛋白和景天酸代谢植物的PEPC/PPCK蛋白上均检测到显著趋同信号。 

进一步的全基因组筛选显示,ACEP在蝙蝠与齿鲸中识别出数百个具有高阶特征趋同信号的候选基因,功能富集分析显著关联“感官感知”等条目,涵盖已知回声定位基因(如SLC26A5、CDH23)和多个新候选基因(如CIB2、GSN)。部分候选基因还得到正选择检验的支持,增强了其发生适应性趋同的可信度。 

为提升结果的可解释性,团队进一步分析了嵌入向量趋同背后的具体高阶特征。例如,在回声定位相关基因SLC17A8中,即使屏蔽已知趋同位点,ACEP信号依然显著,且净电荷密度等具体理化特征呈现趋同;在嗜热原核生物的多个保守蛋白中,疏水性和β-折叠比例等高温稳定性相关特征也显示出一致的趋同模式。 

该研究不仅揭示了蛋白高阶特征趋同是适应性演化的重要机制,也展示了人工智能技术在针对复杂的基因型-表型映射进行演化生物学分析时的强大潜力。ACEP框架为在全基因组水平系统挖掘基因的复杂适应性趋同模式提供了新工具,代码已通过HuggingFace平台开源(https://huggingface.co/NEO699700/ACEP)。 

该研究第一作者为中国科学院动物研究所博士研究生曹振楸,通讯作者为邹征廷研究员,微软公司张宏久博士参与研究。研究获得中国科学院先导项目、国家自然科学基金等支持。邹征廷研究组目前以计算分子演化分析和相关人工智能应用为主要研究方向,有博士后等工作机会,欢迎咨询。 

文章链接:https://doi.org/10.1073/pnas.2418254122

ACEP流程示意图以及在回声定位哺乳类中检测出的与“感官感知”相关的候选适应性趋同基因

Tags:
- THE END -
打赏
本文来源 @ 发布时间为 2025-09-25
内容仅用于知识科普,不代表本站立场,如需转载,请注明出处:https://www.qudaojing.com/keyan/36064.html
加载中~
取消
微信二维码
微信二维码
支付宝二维码
最新推荐
推荐标签