
蛋白质-小分子构象预测是小分子药物发现中的一项重要任务,用于预测小分子(配体)与目标靶蛋白(受体)之间的结合作用。尽管传统的基于物理的对接工具被广泛使用,但构象采样的有限和评分函数的不精确,都影响了这些工具的准确性。近年来,也有学者尝试将深度学习技术引入其中,以提高蛋白质-小分子构象预测的准确性。然而,训练数据的匮乏使这些模型在泛化能力上存在较大挑战。因此,解决蛋白质-小分子构象数据匮乏问题,并研发高精度和强泛化能力的模型变得尤为迫切。
近日,百度飞桨螺旋桨PaddleHelix团队研发并开源了基于大规模预训练方法的HelixDock全原子扩散模型,能够准确预测蛋白质和小分子的结合构象。该工作由百度牵头,联合国家超算某中心、清华大学药学院、北京拓领博泰生物有限公司共同完成,通过生成大规模的仿真数据,构建了一个亿级别的蛋白质-小分子对接构象数据集,用于模型的预训练。
基于该方法,拓领博泰和百度共同合作的自身免疫疾病相关靶点新药研发项目,通过HelixDock精准的构象预测能力,成功找到多个具有高潜力的先导化合物分子。