当前位置:首页 >  前沿技术

你的ML训练集有偏见吗?如何基于合并数据集开发新药

发布时间:2021-10-02 16:00:47

剑桥2021年10月1日多晶型是尽管化学成分相同但具有不同分子排列的分子。在最近的一篇论文中,葛兰素史克(GSK)和剑桥晶体数据中心(CCDC)的研究人员结合他们的专有(GSK)和已发布(CCDC)数据集,更好地训练机器学习(ML)模型,以预测用于新药候选的稳定多晶型。

CCDC和GSK数据集之间的主要区别是什么?

CCDC管理和维护剑桥结构数据库(CSD)。在过去的一个世纪里,全世界的科学家都为CSD贡献了已出版的实验晶体结构,CSD现在有110多万个结构。论文作者使用了CSD的药物子集和GSK的结构。葛兰素史克结构是在制药管道的不同阶段收集的,并不限于上市产品。合著者贾森·科尔博士是CCDC研发团队的高级研究员,他解释了为什么在药物发现管道的不同阶段收集的结构如此重要。

科尔说:“在药物发现的早期阶段,晶体结构有助于合理化构象效应,或者在其他技术导致歧义的新化学实体的化学特征。”。“在这个过程的后期,当一个新的化学实体被作为候选分子进行研究时,晶体结构是至关重要的,因为它们为形态选择提供了信息,并且可以帮助以后克服配方和压片问题。”

这一信息可以帮助研究人员优先考虑他们的努力,从而节省时间,并可能延长生命。

科尔说:“通过了解一系列晶体结构,科学家还可以评估某种特定形态长期不稳定的风险。”。“对结构景观的全面描述会让人对未来的发展充满信心。”

制药科学中的ML模型如何从多个数据集中获益?

工业数据集反映的不仅仅是科学;它们反映了给定组织内的文化选择。

科尔举例说:“只有寻找共晶,才能找到共晶。”。“大多数公司更喜欢配制一种免费或非绑定的药物。人们可以假设,工业环境中的结构类型反映了有意识地寻找特定类型药物的决定,而对CSD贡献的研究人员限制较少。”

ML模型受益于两个关键因素:数据量和数据专用性。这就是为什么将CSD中的数据量和种类与专有数据集进行耦合非常有用的原因。

科尔说:“大量的数据导致更自信的预测。”。“与问题最直接相关的数据会导致更准确的预测。在使用CCDC软件的预测中,我们从最相关的条目中选择一个子集,该子集足够大,足以给人信心。GSK集合必然具有与其商业投资组合中的其他化合物高度相关的化合物。因此,模型构建软件可以使用这些。”

工业研究人员在处理高度相关的数据时,如果没有足够的数据生成可靠的模型,可能会遇到问题。

“考虑到CSD软件通常从CSD中的110万个选择大约二千个结构,”Cole说。“相比之下,工业数据集很小,但是你可以选择,比如说,40或50个高度相关的结构。你没有足够的数据来单独建立一个好的模型,但是CSD添加的化合物补充了数据集。本质上,通过包括GSK和CSD数据集,我们可以得到两个世界的最佳结果:所有高度相关的工业al结构和一组非常相关的CSD结构共同构建高质量模型。”

为什么多晶型会给制药行业带来风险?

不同的包装安排意味着一种多晶型可能更适合于治疗传递,而同一化合物的另一种形式可能不适合。研究人员利用晶体结构数据库进行基于知识的预测,以确定潜在新药是否由制造商能够以治疗方式制造、储存和交付的良好、稳定的形式组成。葛兰素史克和CCDC的作者完成了对小分子晶体结构的稳健分析,其中包含葛兰素史克及其传统公司过去40年的X射线衍射结果。然后,他们将这些结果与CCDC的CSD的药物结构子集相结合,其中包含来自世界各地研究人员的110多万个小分子有机和金属有机晶体结构。

阅读全文:CrystEngComm,2021,235430-5442。(doi.org/10.1039/D1CE00665G)

了解更多有关CSD中超过110万个结构的信息。

《你的ML训练集有偏见吗?如何基于合并数据集开发新药》不代表本网站观点,如有侵权请联系我们删除

云计算专题

科技之窗版权所有