NExT-Mol: Difusión 3D se encuentra con Modelado de Lenguaje 1D para la Generación de Moléculas 3D
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation
February 18, 2025
Autores: Zhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua
cs.AI
Resumen
La generación de moléculas 3D es crucial para el descubrimiento de fármacos y el diseño de materiales. Si bien los esfuerzos previos se han centrado en modelos de difusión 3D por sus ventajas en el modelado de conformadores 3D continuos, han pasado por alto las ventajas de los Modelos de Lenguaje (LM) basados en SELFIES 1D, que pueden generar moléculas 100% válidas y aprovechar los conjuntos de datos de moléculas 1D a escala de miles de millones. Para combinar estas ventajas en la generación de moléculas 3D, proponemos un modelo fundacional: NExT-Mol: Difusión 3D se encuentra con Modelado de Lenguaje 1D para la Generación de Moléculas 3D. NExT-Mol utiliza un LM de moléculas preentrenado extensamente para la generación de moléculas 1D, y posteriormente predice los conformadores 3D de la molécula generada con un modelo de difusión 3D. Mejoramos el rendimiento de NExT-Mol escalando el tamaño del modelo LM, refinando la arquitectura neuronal de difusión y aplicando transferencia de aprendizaje de 1D a 3D. Cabe destacar que nuestro LM de moléculas 1D supera significativamente a los modelos de referencia en similitud distribucional mientras garantiza la validez, y nuestro modelo de difusión 3D logra un rendimiento líder en la predicción de conformadores. Dadas estas mejoras en el modelado 1D y 3D, NExT-Mol logra una mejora relativa del 26% en FCD 3D para la generación de novo 3D en GEOM-DRUGS, y una ganancia relativa promedio del 13% para la generación condicional 3D en QM9-2014. Nuestros códigos y puntos de control preentrenados están disponibles en https://github.com/acharkq/NExT-Mol.
English
3D molecule generation is crucial for drug discovery and material design.
While prior efforts focus on 3D diffusion models for their benefits in modeling
continuous 3D conformers, they overlook the advantages of 1D SELFIES-based
Language Models (LMs), which can generate 100% valid molecules and leverage the
billion-scale 1D molecule datasets. To combine these advantages for 3D molecule
generation, we propose a foundation model -- NExT-Mol: 3D Diffusion Meets 1D
Language Modeling for 3D Molecule Generation. NExT-Mol uses an extensively
pretrained molecule LM for 1D molecule generation, and subsequently predicts
the generated molecule's 3D conformers with a 3D diffusion model. We enhance
NExT-Mol's performance by scaling up the LM's model size, refining the
diffusion neural architecture, and applying 1D to 3D transfer learning.
Notably, our 1D molecule LM significantly outperforms baselines in
distributional similarity while ensuring validity, and our 3D diffusion model
achieves leading performances in conformer prediction. Given these improvements
in 1D and 3D modeling, NExT-Mol achieves a 26% relative improvement in 3D FCD
for de novo 3D generation on GEOM-DRUGS, and a 13% average relative gain for
conditional 3D generation on QM9-2014. Our codes and pretrained checkpoints are
available at https://github.com/acharkq/NExT-Mol.Summary
AI-Generated Summary