ChatPaper.aiChatPaper

NExT-Mol: 3D-Diffusion trifft auf 1D-Sprachmodellierung für die 3D-Molekülgenerierung

NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

February 18, 2025
Autoren: Zhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua
cs.AI

Zusammenfassung

Die Generierung von 3D-Molekülen ist entscheidend für die Arzneimittelentdeckung und das Materialdesign. Während sich frühere Bemühungen auf 3D-Diffusionsmodelle konzentrierten, um die Vorteile bei der Modellierung kontinuierlicher 3D-Konformere zu nutzen, wurden die Vorteile von 1D-SELFIES-basierten Sprachmodellen (LMs) übersehen, die 100 % gültige Moleküle generieren und auf milliardenschwere 1D-Moleküldatensätze zurückgreifen können. Um diese Vorteile für die 3D-Molekülgenerierung zu kombinieren, schlagen wir ein Grundlagenmodell vor – NExT-Mol: 3D-Diffusion trifft auf 1D-Sprachmodellierung für die 3D-Molekülgenerierung. NExT-Mol verwendet ein umfangreich vortrainiertes Molekül-LM für die 1D-Molekülgenerierung und sagt anschließend die 3D-Konformere des generierten Moleküls mit einem 3D-Diffusionsmodell vorher. Wir verbessern die Leistung von NExT-Mol, indem wir die Modellgröße des LMs skalieren, die neuronale Architektur der Diffusion verfeinern und 1D-zu-3D-Transferlernen anwenden. Bemerkenswerterweise übertrifft unser 1D-Molekül-LM die Baselines deutlich in der Verteilungsähnlichkeit, während es gleichzeitig die Gültigkeit sicherstellt, und unser 3D-Diffusionsmodell erzielt führende Leistungen bei der Konformer-Vorhersage. Angesichts dieser Verbesserungen in der 1D- und 3D-Modellierung erreicht NExT-Mol eine relative Verbesserung von 26 % im 3D-FCD für die de novo 3D-Generierung auf GEOM-DRUGS und einen durchschnittlichen relativen Gewinn von 13 % für die bedingte 3D-Generierung auf QM9-2014. Unsere Codes und vortrainierten Checkpoints sind unter https://github.com/acharkq/NExT-Mol verfügbar.
English
3D molecule generation is crucial for drug discovery and material design. While prior efforts focus on 3D diffusion models for their benefits in modeling continuous 3D conformers, they overlook the advantages of 1D SELFIES-based Language Models (LMs), which can generate 100% valid molecules and leverage the billion-scale 1D molecule datasets. To combine these advantages for 3D molecule generation, we propose a foundation model -- NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation. NExT-Mol uses an extensively pretrained molecule LM for 1D molecule generation, and subsequently predicts the generated molecule's 3D conformers with a 3D diffusion model. We enhance NExT-Mol's performance by scaling up the LM's model size, refining the diffusion neural architecture, and applying 1D to 3D transfer learning. Notably, our 1D molecule LM significantly outperforms baselines in distributional similarity while ensuring validity, and our 3D diffusion model achieves leading performances in conformer prediction. Given these improvements in 1D and 3D modeling, NExT-Mol achieves a 26% relative improvement in 3D FCD for de novo 3D generation on GEOM-DRUGS, and a 13% average relative gain for conditional 3D generation on QM9-2014. Our codes and pretrained checkpoints are available at https://github.com/acharkq/NExT-Mol.

Summary

AI-Generated Summary

PDF82February 20, 2025