2020年12月,一条关于人工智能的新闻引爆生物学领域。谷歌旗下DeepMind公司开发的人工智能程序AlphaFold2,在2020年度蛋白质结构预测大赛CASP14[注1]中取得惊人好成绩,准确性可与实验室水平相媲美(图1)。
“它将改变医学。它将改变研究。它将改变生物工程。它将改变一切。”CASP的评委、马克斯-普朗克发育生物学研究所的进化生物学家Andrei Lupas说。
蛋白质是生命的基石,决定着细胞内发生的大部分反应。结构即功能,蛋白质的工作方式和功能取决于它独特的三维结构。目前学界一致认为,三维结构由一级结构即蛋白质的氨基酸排列决定(图2)。
一直以来,实验室分析方法,如X射线晶体分析、生物NMR、冷冻电镜,是获取蛋白质结构的主要途径,但1个蛋白结构解析可能花费数月到数年时间。很多研究人员曾希望能仅根据蛋白质的氨基酸序列来计算预测蛋白质的三维结构,然而蛋白质形成最终的3D结构之前,理论上可以折叠的方式是天文数字, “通过蛮力计算列举一个典型蛋白质的所有可能构型所需时间比已知宇宙的年龄还要长”,Cyrus Levinthal在1969年指出。
AlphaFold2 改变了这一切。在所有的目标蛋白中,AlphaFold2取得了92.4分的中位数得分。90分是个门槛,这样的成绩意味着结构预测已经和真实结构基本一致。AlphaFold2实现了人类在蛋白质结构预测领域巨大的进步——首次不用实验室方法也可以精确预测蛋白质结构。
当然,AlphaFold不太可能完全取代实验室方法,“但它或许意味着,想要得到一个好的结构,可能只要相对低质量、易收集的实验数据就够了。”Lupas说,“今后需要的思考越来越多,需要的移液越来越少了。”