分子グラフに立体電子効果を組み込んだ分子機械学習表現の進展
Advancing Molecular Machine (Learned) Representations with Stereoelectronics-Infused Molecular Graphs
August 8, 2024
著者: Daniil A. Boiko, Thiago Reschützegger, Benjamin Sanchez-Lengeling, Samuel M. Blau, Gabe Gomes
cs.AI
要旨
分子表現は、物理世界を理解する上での基礎的な要素です。その重要性は、化学反応の基本原理から新たな治療法や材料の設計にまで及びます。従来の分子機械学習モデルでは、文字列、フィンガープリント、グローバル特徴量、そして本質的に情報が希薄な単純な分子グラフが用いられてきました。しかし、予測タスクの複雑さが増すにつれ、分子表現はより高精度な情報を符号化する必要があります。本研究では、立体電子効果を介して量子化学的に豊富な情報を分子グラフに注入する新たなアプローチを提案します。立体電子相互作用を明示的に追加することで、分子機械学習モデルの性能が大幅に向上することを示します。さらに、立体電子情報を注入した表現は、カスタマイズされた二重グラフニューラルネットワークのワークフローで学習および展開可能であり、任意の下流分子機械学習タスクに適用できます。最後に、学習された表現により、タンパク質全体のような従来扱いにくかった系の立体電子評価が容易になり、分子設計の新たな道が開かれることを示します。
English
Molecular representation is a foundational element in our understanding of
the physical world. Its importance ranges from the fundamentals of chemical
reactions to the design of new therapies and materials. Previous molecular
machine learning models have employed strings, fingerprints, global features,
and simple molecular graphs that are inherently information-sparse
representations. However, as the complexity of prediction tasks increases, the
molecular representation needs to encode higher fidelity information. This work
introduces a novel approach to infusing quantum-chemical-rich information into
molecular graphs via stereoelectronic effects. We show that the explicit
addition of stereoelectronic interactions significantly improves the
performance of molecular machine learning models. Furthermore,
stereoelectronics-infused representations can be learned and deployed with a
tailored double graph neural network workflow, enabling its application to any
downstream molecular machine learning task. Finally, we show that the learned
representations allow for facile stereoelectronic evaluation of previously
intractable systems, such as entire proteins, opening new avenues of molecular
design.Summary
AI-Generated Summary