热线电话
  • 010-88558925010-88558943
  • 010-88558955010-88558948
CMIC专家更多

阿里云刘伟光:AI应

AI时代,伴随大模型极速迭代,推理效率突...更多>>

中国工程院院士张亚勤

“无人驾驶的ChatGPT时刻什么时候来...更多>>

中国市场情报中心 > CMIC研究 > CMIC观点
CMIC:AI引发生物医药领域颠覆式变革

发布时间:2025-04-17 11:34:03

来源:赛迪-中国电子报

作者:宋婧

【打印】 【进入博客】 【推荐给朋友】
  【CMIC讯】近来,由AI引发的蝴蝶效应在全球范围内不断蔓延。尤其在生物医药领域,伴随AI技术快速迭代,一场颠覆式变革已然拉开序幕。从AlphaFold成功预测地球上几乎所有已知蛋白质的三维结构,到David Baker、Demis Hassabis、John Jumper三位AI大拿荣获诺贝尔化学奖,在国内以阿里巴巴为代表的科技公司,也在用AI重塑病毒发现、药物研发、临床试验等各个环节,AI给生物医药领域带来的改变仍在继续。
  
  新型病毒的发现有多难?
  
  病毒是地球生态系统的重要组成部分,也与人类的健康密切相关。有研究显示,地球形成于46亿年前,刚开始的十多亿年,地球并不适合生命生存,但在35亿年前,生命就开始诞生,病毒或诞生于生命诞生之前。用更高效、更精准的方法发现和鉴定新病毒,是研究者一直以来的追求。
  
  新型病毒的发现究竟有多难?从2002年年底到2003年年初,一种未知病毒在全球范围内快速扩散,波及32个国家和地区。经过全球科学家的共同努力,耗时将近一年的时间,最终才确认了这种新型冠状病毒,并将其命名为SARS病毒。
  
  实际上,在我们身边,病毒无处不在。绝大多数病毒对人类是无害的,但少数病毒却能致使人类罹患疾病,严重的甚至会影响到我们的生命安全。然而由于病毒看不见、摸不着,因此很难被发现。资料显示,目前人类已知的病毒种类约有5000余种,有95%的病毒还不为人类所知。
  

图
  
图为与人类密切相关的一些病毒形态


  
  以RNA病毒为例,我们前几年经历的新冠病毒,以及经常听到的流感病毒、埃博拉病毒、肝炎病毒、登革热病毒、狂犬病病毒等都属于RNA病毒。这种病毒的基因组比较小,且在遗传复制时缺少像细胞生物一样的纠错机制,使得它们的变异速度非常快,基因序列的保守性非常差,这让RNA病毒的鉴定和分类变得极其困难。病毒学家和生物信息学家经过二三十年的努力,才只解析出4000多种RNA病毒,可谓冰山一角。
  
  病毒的基因组序列是其最核心的组分,抓住了病毒的基因组序列,就等于找到了病毒。“要鉴别一种病毒是不是RNA病毒,首先要对病毒基因组进行序列比对,同类病毒往往序列相似度高。‌传统的RNA病毒鉴定方法非常依赖序列同源性比对,也就是把未知病毒的序列与已知病毒序列作相似性比对,这种方法十分依赖对病毒的既有认知。”阿里云算法专家贺勇在接受《中国电子报》记者专访时表示。
  
  据他介绍,RNA病毒种类丰富、高度分化,比DNA病毒更容易发生变异。但由于现有RNA病毒样本少,数据积累也很少,如果不能突破“已知”的框架,很难发现那些不具备同源性或者只有极低同源性的“暗物质病毒”。“如果使用传统序列比对的病毒鉴定方法,不仅时间周期长,而且即便出现了新病毒也难以被发现,所以必须找出一条新的病毒识别路径。”
  
  AI揭秘RNA“病毒圈”
  
  AI技术尤其是大模型的出现,为病毒发现提供了新思路。阿里云与中山大学共同设计出LucaProt模型,在来自全球不同生境的10,487份环境样本中,发掘出180个病毒超群、161,979种病毒,将RNA病毒超群数量扩容约8倍、病毒种类扩充约30倍;还发现了有史以来最大的RNA病毒,包含 47,250个核苷酸,全方位地颠覆了人们对RNA“病毒圈”的认识。
  
  “这是业内首次将生物大模型引入到RNA病毒发现领域。”贺勇感慨说道:“原来通过序列对比方式能够鉴别的RNA病毒,LucaProt模型都能覆盖;传统鉴别方式鉴别不出来的RNA病毒,LucaProt模型也能发现。这项研究成果不仅能够大大扩充RNA病毒库,还能有力促进科学家对这个病毒产生新的认识,把病毒学研究带到新的高度。”
  
  记者了解到,LucaProt模型主要具备两大核心功能。一是基于生物大模型提取通用型特征的蛋白表征矩阵(这种矩阵会蕴含着丰富的语义信息,如序列信息、属性、结构、生物活性等),并基于Attention机制构造特征筛选器,从通用特征中自动筛选对RNA病毒鉴定关注的特征。;二是在通用型特征的基础上,基于Transformer从原始的病毒序列中提取病毒鉴定任务特定的特征。这样在病毒样本不足的情况下,二者结合起来提高模型的准确性与泛化能力,从而突破新病毒发现难题,发现更多“暗物质病毒”。
  
  “这就相当于要从一群人里面挑选出一个中国人,先通过通用特征提取器找出人的通用外貌表征(比如肤色、性别、发色、瞳孔颜色、五官特点等),再根据判断人种需要的特征去进行一轮筛选(比如性别对于判断是不是中国人不重要就可以排除)。并结合一些特定的文化特征(如是否会使用汉语等),将通用表征与特定表征结合,就能获得较大概率准确鉴别这个人是不是中国人了。”贺勇解释说道。
  
  同时,他表示,目前业界大多数“开源”大模型开放出来的仅仅是一套权重,即训练后的模型参数。开发者如果想复现该模型的训练过程,如通过优化数据集、训练方法等训练出一个更优质的模型,就需要数据集、训练过程、代码。但大部分“开源”大模型的并未提供这些要素,其他开发者即使掌握算力也是无法复现的。而LucaProt模型是完全开源,不仅是模型权重,还包括数据集、模型代码、训练代码等。使用者只需在阿里云上购买相关产品和服务,即可开始进行大规模推理与训练。
  
  “对于科学家而言,他们不再需要花很多时间去发现与鉴别RNA病毒,可以集中精力去做后续的研究了,比如病毒的进化与演变、是否会感染人等;对于制药商而言,原本从发现病毒、研究病毒到开发疫苗、临床试验动辄需要十几年甚至更久的时间,期间各种生物实验需要耗费大量资金成本,LucaProt模型可以帮助他们缩短疫苗或药物开发的时间,降低开发成本;对于开发者而言,基于开源模型底座可以帮助他们积累更多病毒数据,从而进行二次训练,进一步提升模型能力。”贺勇介绍说道。
  
  据悉,该研究成果已入选中科院旗下基因组蛋白质组与生物信息学报评选的“2024年度中国生物信息学十大进展”,并登上了国际顶级学术期刊《Cell》封面,成为AI for science研究的标杆案例。
  

图
  
LucaProt模型相关研究成果登上国际顶级学术期刊《Cell》封面


  
  阿里“AI for Science”初心
  
  回忆起最开始开启这个研究的时候,一位业内人士的话令贺勇印象深刻。该人士说:“传统病毒研究方面已经到头了,很难发现新的东西。”而AI时代的到来,改变了这一切。
  
  AI技术与病毒学、生物学的结合,属于AI for science的科研探索,是近年业界非常关注的研究方向。此前,AI与生物科学结合所产生的AlphaFold,就是典型的AI for science示范,解决了困扰生物学领域半个世纪的蛋白质折叠难题。如今,中山大学和阿里云关于LucaProt模型的研究把RNA病毒发现这一生物学问题转化为“AI可计算”问题,借助云计算等强大且智能的算力平台,大大提升了病毒发现效率,同时利用经典生物学方法对AI发现的RNA病毒进行交叉验证,把新病毒的检测成功率提升至95%以上,再次将AI for science推向了新高潮。
  
  参与这项研究的权威专家评论指出,阿里云AI for Science的成功,不仅源于强大的技术团队和持续的资金支持,更得益于其对市场趋势的敏锐把握和前瞻性布局。
  

图
  
LucaProt的大规模病毒发现Workflow


  
  根据赛迪研究院的数据,全球生物制造产业规模已相当可观,且保持着较高的年复合增长率。特别是在生物制药领域,市场规模已超过4000亿美元,并持续以超过10%的增速扩大。中金企信统计数据显示,预计到2025年,全球高端生物制造行业市场规模将达到1250亿美元,年复合增长率为10.8%。这一预测进一步印证了生物制造市场的强劲增长势头,以及其在未来经济发展中的巨大潜力。
  
  不止是病毒发现,阿里还在不断用AI技术为更多科学研究带来新解法。比如:业界首个将DNA、RNA与蛋白质联合训练的大模型LucaOne;在中国科学院国家天文台,科研人员利用阿里通义千问推理大模型QwQ-32B构建的太阳物理大模型“金乌”,对太阳耀斑活动进行精准预测;中国科学院青藏高原研究所联合阿里云打造了首个专注于气候变化适应领域的水—能—粮多模态推理大模型——“洛书”,以防范潜在的水资源和能源保供风险等。据悉,目前国内已有50多所院校机构使用阿里巴巴的“云和AI服务”开展科研创新,并在生物、农业、天文等领域取得了成果。
  
  正如阿里云创始人王坚所言,“赋能”这个词低估了AI对科学的影响。就科学而言,AI不是一次简单的工具革命,而是科学革命的工具。AI正在引发一场从科研范式、科研方法到应用场景的系统性变革。
  
  “‘AI驱动’是阿里的核心战略之一,我们希望用AI解决实际问题,科学问题也是实际问题的一部分。”贺勇对记者说道。他表示:“实际上也不止是我们,国内外很多科技企业都在这个赛道上‘竞赛’,尽管距离商业化还有很长一段距离,但大家已经达成共识,认为‘AI for Science’是有场景、有潜力的。我们也希望把LucaProt模型的相关研究打造成一个样板,吸引更多人加入进来,共同推动‘AI for Science’向前迈进一步。”

相关报道
  • --

联系我们:8610-8855 8955 zhouhl@staff.ccidnet.com

广告发布: 8610-88558925

方案、案例展示: 8610-88558925

Copyright 2000-2011 CCIDnet.All rights reserved.

京ICP000080号 网站-3