上个世纪50年代,借助X-射线衍射,DNA双螺旋模型被破译,血红蛋白、肌红蛋白的晶体结构被解析,从而揭开了结构生物学的序幕,生命科学也自此进入了分子生物学时代。传统的结构生物学研究对象通常是序列已知或者功能明确的生物大分子,科研人员通过获得三维结构来揭示其工作机理。因此,传统的结构生物学研究通常在科研发现过程中处于偏下游的位置,需要通过遗传学、细胞生物学、生物化学等学科先发现研究对象。近年来,以AlphaFold为代表的AI辅助蛋白质结构预测技术仅仅知道氨基酸序列就可以对尚未解析结构的蛋白质进行结构预测,再通过数据库比对挖掘其功能,代表了结构生物学研究的一个新范式。但不论是传统的从功能到结构还是最近的从结构逆推功能,研究对象基本上都是已知的。其实,很多人没有意识到,借助冷冻电镜技术,结构生物学即将进入到又一个激动人心的时代!
人类通过视觉、听觉、味觉、嗅觉、触觉来感知世界。据估计,我们对于外界85%的信息通过视觉获得。然而,由于人类视力有限,直接观察的范畴也有限,于是发明了各种工具用以观测极幽微或者极遥远的世界。在生命科学研究历史上,光学显微镜的发明直接孕育了细胞生物学。然而,普通光学显微镜的分辨率极限受限于可见光的波长,只有大约200纳米;近年来的超分辨率光学显微镜通常需要荧光探针,并依赖足够的先验知识。颜宁团队试图回答如下问题:是否可以将冷冻电镜像历史上的放大镜、望远镜、光学显微镜一样,用来探索完全未知的世界?因为冷冻电镜技术自从2013年底经历了一场技术突破之后,对结构生物学乃至多个学科的影响非常深远,但其潜力还远未被充分发掘。
2024年10月9日,颜宁团队在《美国国家科学院院刊》(PNAS)杂志在线发表题为“CryoSeek:利用冷冻电镜进行生物实体发现的研究策略”( CryoSeek: A strategy for bio-entity discovery using cryo-electron microscopy)的研究论文,研究团队将冷冻电镜作为一种“发现”工具,拓展了人类视觉分辨率的极限,放眼大自然,发现完全未知的生物大分子。
为验证这一思路的可行性,颜宁团队从清华大学荷塘中取水若干升,经过简单的过滤和浓缩处理之后,制备冷冻电镜样品并进行数据采集。在电镜显微照片中观察到了自然水体中丰富多样的生物大分子,其中长短、粗细不一的纤维状结构在样品中占据主导地位。颜宁团队通过三维重构获得了若干高分辨率电镜密度图;然后利用由清华大学生命学院副教授、科学探索奖获得者张强锋率团队开发的基于AI算法的CryoNet软件进行自动模型搭建,很快获得了两种纤维状蛋白的三维结构。生物信息学分析表明这两种纤维状蛋白来自完全未知的物种,大概率是某些水生细菌表面用于物质传递和辅助运动的菌毛。所以,在蛋白序列及来源全然未知的情况下,该项研究实现了完全基于结构的生物实体的物质鉴定和功能预测。清华大学的荷塘因朱自清的《荷塘月色》而闻名,因而研究团队将本项研究称为“荷糖月色”计划。本项研究所解析的纤维结构仅仅是一个序曲,更精彩的发现仍在继续。
图1. CryoSeek的研究流程
上述的CryoSeek研究策略充分展示了冷冻电镜在科研发现中的巨大潜力。一是鉴定相对快捷,比如取自荷塘2.5升的水体样品,经过大约4小时的过滤和浓缩,以及为期3天的冷冻电镜数据采集和后续的计算分析,从高度异质性的环境样品中成功重构了两种蛋白纤维的高分辨率结构;而过滤与数据收集的效率都可以进一步优化;二是高灵敏性,这两个高分辨率结构都分别只用了几百根蛋白纤维,但是当把同样的样品进行质谱和宏基因组分析时,可能由于丰度较低,两种纤维的序列信息均未被检测到。这表明在特定生物实体的研究中,冷冻电镜可能具备更高的敏感性和探究潜力。未来,研究团队计划将CryoSeek研究策略应用到更加多样化的样品研究中。清华荷塘只是一个起点,未来的研究对象可以扩展到土壤、河流、空气、雨雪、海洋,甚至更为极端的环境,如深海、极地、火山,乃至外太空的生物实体。研究团队希望通过基于冷冻电镜技术开启结构生物学研究全新范式,从而助力多学科 (Structural X-ology) 的发展,包括但不限于结构考古学 (Structural archeology)、结构病理学 (Structural pathology)、结构生态学 (Structural ecology) 等。
图2. 从荷塘水中解析的两种纤维结构TLP-1a和TLP-1b
清华大学讲席教授、北京生物结构前沿研究中心研究员、深圳医学科学院创始院长、深圳湾实验室主任颜宁,清华大学生命科学学院助理研究员李张强为本文的共同通讯作者。清华大学生命科学学院2020级直博生王彤彤、助理研究员李张强为本文共同第一作者。清华大学生命科学学院博士后徐魁、黄文泽,以及西湖大学生命科学学院博士后黄高兴宇参与了本研究。清华大学生命科学学院副教授张强锋为本研究的数据分析提供了帮助。实验的冷冻电镜数据收集得到了清华大学冷冻电镜平台的帮助;实验的质谱鉴定工作得到了蛋白质化学与组学平台的支持;实验的计算工作得到清华大学高性能计算平台、国家蛋白质设施实验技术中心(北京)的支持。本研究得到了国家自然科学基金重点项目,北京生物结构前沿研究中心与清华-北大生命科学联合中心的经费支持。