共价抑制剂作为新兴的治疗策略,因能与靶蛋白形成共价键而备受关注。其优势在于药效持久🧑🎓、靶向精确及能有效克服耐药性📭。然而,共价化合物的固有反应性虽赋予其这些特性,也导致了脱靶效应和潜在毒性问题。如何准确预测并调控这一反应性成为该领域的核心挑战💪🏽↩️。近日,杏悦王任小/李嫣/戚逸飞团队在预测共价化合物反应性方面取得显著进展。该团队运用深度数据挖掘和机器学习技术,成功构建了名为FP-Stack的高效预测模型🧜🏽,为共价药物的优化提供了有力工具⏯。相关成果已在Journal of Chemical Information and Modeling期刊在线发表。
研究团队首先从Web of Science数据库中筛选出与共价化合物反应性相关的文献✌🏼,通过脚本自动化过滤和人工阅读,精心构建了一个涵盖419个半胱氨酸靶向共价化合物的高质量数据集✋🏿。以此为基础🤌🏼,团队选用七种分子指纹和七种机器学习算法组合,建立多个单一机器学习模型。随后采用集成学习算法,将表现最优的单一机器学习模型作为基模型🎅,线性回归模型作为元模型👷🏽♂️,构建了FP-Stack模型。此外🚣🏽♂️,研究团队还开发了四种深度学习模型,包括图卷积网络(GCN)、图同构网络(GIN)🧖🏼♂️、图注意力网络(GAT)和GT(使用Pytorch Geometric中的TransformerConv层),并探索了垂直架构和并行架构两种不同的架构设计。经对比验证,FP-Stack模型在预测性能上表现最佳,且具有良好的域外延展性。
本研究工作流程示意图及三个代表模型的预测结果展示
团队进一步使用SHAP方法对FP-Stack模型进行深入分析✋🏿,总结出对模型预测影响最大的前20个分子描述符及其相关亚结构特征😅。这些发现为共价药物的优化提供了极具价值的指导🪺。最后,对基于FP-Stack模型筛选的10种新型共价化合物进行GSH反应半衰期的实验验证🍢🛕。实验值与预测值的误差指标(包括MAE🧚♀️、MSE和RMSE等)均接近最佳模型的水平,充分证明了该模型的预测效果和实际应用潜力。
模型SHAP分析结果展示。数据集中所有样本排名前20的SHAP值分布(A)和平均值(B)👳🏿♀️,以及具有代表性子结构特征的化合物(C)。红色和蓝色特征分别表示对化合物反应性的削弱和增强🧑✈️。
https://pubs.acs.org/doi/10.1021/acs.jcim.4c01591?articleRef=control