NExT-Mol: 3D分子生成における3D拡散モデルと1D言語モデルの融合
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation
February 18, 2025
著者: Zhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua
cs.AI
要旨
3D分子生成は、創薬や材料設計において極めて重要です。これまでの研究では、連続的な3D構造をモデル化する利点から3D拡散モデルに焦点が当てられてきましたが、100%有効な分子を生成可能で、数十億規模の1D分子データセットを活用できる1D SELFIESベースの言語モデル(LM)の利点が見落とされていました。これらの利点を3D分子生成に統合するため、我々は基盤モデル「NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation」を提案します。NExT-Molは、広範に事前学習された分子LMを使用して1D分子を生成し、その後3D拡散モデルで生成された分子の3D構造を予測します。NExT-Molの性能を向上させるため、LMのモデルサイズを拡大し、拡散ニューラルアーキテクチャを改良し、1Dから3Dへの転移学習を適用しました。特に、我々の1D分子LMは、有効性を保証しつつ分布類似性においてベースラインを大幅に上回り、3D拡散モデルは構造予測において最先端の性能を達成しました。これらの1Dおよび3Dモデリングの改善により、NExT-MolはGEOM-DRUGSにおけるde novo 3D生成で3D FCDにおいて26%の相対的改善を、QM9-2014における条件付き3D生成で平均13%の相対的向上を達成しました。我々のコードと事前学習済みチェックポイントはhttps://github.com/acharkq/NExT-Molで公開されています。
English
3D molecule generation is crucial for drug discovery and material design.
While prior efforts focus on 3D diffusion models for their benefits in modeling
continuous 3D conformers, they overlook the advantages of 1D SELFIES-based
Language Models (LMs), which can generate 100% valid molecules and leverage the
billion-scale 1D molecule datasets. To combine these advantages for 3D molecule
generation, we propose a foundation model -- NExT-Mol: 3D Diffusion Meets 1D
Language Modeling for 3D Molecule Generation. NExT-Mol uses an extensively
pretrained molecule LM for 1D molecule generation, and subsequently predicts
the generated molecule's 3D conformers with a 3D diffusion model. We enhance
NExT-Mol's performance by scaling up the LM's model size, refining the
diffusion neural architecture, and applying 1D to 3D transfer learning.
Notably, our 1D molecule LM significantly outperforms baselines in
distributional similarity while ensuring validity, and our 3D diffusion model
achieves leading performances in conformer prediction. Given these improvements
in 1D and 3D modeling, NExT-Mol achieves a 26% relative improvement in 3D FCD
for de novo 3D generation on GEOM-DRUGS, and a 13% average relative gain for
conditional 3D generation on QM9-2014. Our codes and pretrained checkpoints are
available at https://github.com/acharkq/NExT-Mol.Summary
AI-Generated Summary