NExT-Mol: La Diffusione 3D Incontra il Modellamento del Linguaggio 1D per la Generazione di Molecole 3D
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation
February 18, 2025
Autori: Zhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua
cs.AI
Abstract
La generazione di molecole 3D è cruciale per la scoperta di farmaci e la progettazione di materiali.
Mentre gli sforzi precedenti si concentrano sui modelli di diffusione 3D per i loro vantaggi nella modellazione
di conformeri 3D continui, trascurano i vantaggi dei modelli linguistici (LM) basati su SELFIES 1D,
che possono generare molecole 100% valide e sfruttare i dataset di molecole 1D su scala miliardi.
Per combinare questi vantaggi nella generazione di molecole 3D, proponiamo un modello di base -- NExT-Mol:
Diffusione 3D incontra la modellazione linguistica 1D per la generazione di molecole 3D. NExT-Mol utilizza
un modello linguistico di molecole pre-addestrato in modo estensivo per la generazione di molecole 1D,
e successivamente prevede i conformeri 3D della molecola generata con un modello di diffusione 3D.
Miglioriamo le prestazioni di NExT-Mol aumentando le dimensioni del modello LM, perfezionando l'architettura
neurale di diffusione e applicando il trasferimento di apprendimento da 1D a 3D.
In particolare, il nostro LM di molecole 1D supera significativamente i benchmark in termini di somiglianza
distributiva garantendo la validità, e il nostro modello di diffusione 3D raggiunge prestazioni leader
nella previsione dei conformeri. Grazie a questi miglioramenti nella modellazione 1D e 3D, NExT-Mol
ottiene un miglioramento relativo del 26% in FCD 3D per la generazione de novo 3D su GEOM-DRUGS,
e un guadagno relativo medio del 13% per la generazione condizionale 3D su QM9-2014.
I nostri codici e checkpoint pre-addestrati sono disponibili su https://github.com/acharkq/NExT-Mol.
English
3D molecule generation is crucial for drug discovery and material design.
While prior efforts focus on 3D diffusion models for their benefits in modeling
continuous 3D conformers, they overlook the advantages of 1D SELFIES-based
Language Models (LMs), which can generate 100% valid molecules and leverage the
billion-scale 1D molecule datasets. To combine these advantages for 3D molecule
generation, we propose a foundation model -- NExT-Mol: 3D Diffusion Meets 1D
Language Modeling for 3D Molecule Generation. NExT-Mol uses an extensively
pretrained molecule LM for 1D molecule generation, and subsequently predicts
the generated molecule's 3D conformers with a 3D diffusion model. We enhance
NExT-Mol's performance by scaling up the LM's model size, refining the
diffusion neural architecture, and applying 1D to 3D transfer learning.
Notably, our 1D molecule LM significantly outperforms baselines in
distributional similarity while ensuring validity, and our 3D diffusion model
achieves leading performances in conformer prediction. Given these improvements
in 1D and 3D modeling, NExT-Mol achieves a 26% relative improvement in 3D FCD
for de novo 3D generation on GEOM-DRUGS, and a 13% average relative gain for
conditional 3D generation on QM9-2014. Our codes and pretrained checkpoints are
available at https://github.com/acharkq/NExT-Mol.Summary
AI-Generated Summary