邮箱:boxuetian@mail.tsinghua.edu.cn
田博学研究员本科毕业于华东理工大学应用化学专业,2012年获得爱尔兰国立大学-高威生物物理化学博士学位,之后在加州大学旧金山分校从事计算化学和计算生物学相关博士后研究,在PNAS、JACS、ACS Catalysis、eLife、PLOS Comp Bio等期刊发表论文20余篇。2020年归国任教于清华大学,现为清华大学药学院副教授,博士生导师,加入教育部生物信息学重点实验室、分子肿瘤学全国重点实验室。田博学研究员的主要研究方向为生物信息学(蛋白质序列、结构与功能)与计算机辅助药物设计(CADD+AIDD)。田博学研究员在AI制药、计算化学、计算生物学等领域具备扎实的研究基础,掌握各类相关技能,指导团队取得了多项技术突破,例如在抗体CDR-H3结构预测任务中超越AlphaFold2并取得当前最佳(eLife 2024)。
2023-至今 清华大学药学院 副教授
2020-2023 清华大学药学院 助理教授
2013-2020 美国加州大学旧金山分校 药物化学系 专业:生物物理化学 导师: Matthew P. Jacobson 博士后(酶功能预测、计算机辅助药物设计)
2009-2012 爱尔兰国立大学-高威 化学系 专业:生物物理化学 导师:Leif A. Eriksson 博士 (量子化学、计算酶学、计算机辅助药物设计)
2008-2009 瑞典厄勒布鲁大学 专业: 理论化学 导师:Leif A. Eriksson 硕士 (量子化学、计算酶学)
2004-2008 华东理工大学 理工优秀生部 专业: 应用化学 导师:田禾
田博学课题组主要研究方向为生物信息学(蛋白质的序列、结构与功能关系)与AI制药(药物制造与设计),研究内容包括:
1)蛋白质词表:蛋白质设计领域的大多数研究针对蛋白序列、结构与功能三者的关系展开,前两代蛋白设计架构分别为:1)序列<=>结构<=>功能;2)序列<=>功能。本实验室的一个重点方向是尝试建立新一代蛋白设计方法的基石,即蛋白功能团(functional groups),发展基于功能团(最小化序列) 的蛋白设计架构(功能团<=>功能)。通过打开蛋白语言模型的黑箱,我们构建通用功能团词表和蛋白专属功能团词表,类似语言中的通用词汇(日常词汇)和专用词汇(专业术语)。通过功能团(词)层面的序列分析,我们能够:1)设计全新功能的小蛋白;2)设计无结构蛋白;3)预测蛋白的未知功能;4)更深入的理解蛋白功能,如远端调控机制。
2)物理语言模型:虽然AlphaFold(AF)系列模型在蛋白3D结构预测精度方面表现出色,但对于蛋白功能预测,3D结构消耗资源大,与蛋白语言模型相比性价比不高,例如对于突变体的预测,使用3D结构(AF预测的突变体结构几乎无变化)与仅使用语言模型相比几乎没有收益。尽管蛋白语言模型的基础架构(如ESM2)已被广泛使用,对于生物领域的小样本问题,如何根据具体应用场景设计语言模型仍然面临挑战。实验室在语言模型基础上进一步发展“物理语言模型”,结合“蛋白质词表”,在理解语言模型的基础上引入物理学约束,解决酶功能预测与突变优化等任务。该模型将应用于仅依靠靶蛋白序列的小分子、抗体药物设计,理论上能够靶向无结构蛋白(IDP)。
3)萜类合成酶功能设计与优化:萜类分子(如青蒿素)是最大的一类天然产物,占已获批小分子药物的8%以上。萜类分子在生物合成中最难的成环步骤由萜类合成酶催化实现,这类反应在有机化学中完成难度大。团队在萜类合成酶功能研究方面具有10年以上的积累。基于“蛋白词表”和“物理语言模型”两项技术,团队将进一步完成萜类合成酶化学空间与蛋白序列空间对映关系这一难题。在此基础上,结合P450酶,并且应用自动化有机合成技术,可大规模拓展类药分子实体库,助力药物研发。
1)Yufan Liu, Boxue Tian*. Protein-DNA binding sites prediction based on pre-trained protein language model and contrastive learning. Briefings in Bioinformatics. 2024, 1, 1-12.
2)Jiamin Chang, Xiaoyu Fan, and Boxue Tian*.Predicting human P450 activities of small molecules by integrating pretrained protein language model and molecular representation. Journal of Chemical Information and Modeling. 2024, 64, 3149-3160.
3) Jue Wang, Yufan Liu, and Boxue Tian*.Protein-small molecule binding site prediction based on a pre-trained protein language model with contrastive learning. Journal of Cheminformatics. 2024, 16(1), 125.
4)Hedi Chen, Jingrui Zhong, Xiaochun Zhang, Jingke Chen, Lin Guo, Xiaoliang Xiong, Xiaonan Zhang, Xiangyu Liu, Bailong Xiao, Boxue Tian*. Automatically Defining Protein Words for Diverse Functional Predictions Based on Attention Analysis of a Protein Language Model. bioRXiv.
5)Boxue Tian1*, Lin Guo, Xiaoguang Yan, Shengxin Nie, Mingyue Ge, Yukun Li, Yali Lu, Weiguo Li, Xiaochun Zhang, Dongmei Liang, Yihan Zhao,
Hongxiao Tan, Xiling Chen, Shilong Fan, Yefeng Tang, Jianjun Qiao.Enhancing Enzyme Activity with Mutation Combinations Guided by Few-shot Learning and Causal Inference. Preprint.