ChatPaper.aiChatPaper

NExT-Mol: 3D-diffusie ontmoet 1D-taalmodellering voor 3D-molecuulgeneratie

NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

February 18, 2025
Auteurs: Zhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua
cs.AI

Samenvatting

3D-molecuulgeneratie is cruciaal voor geneesmiddelenontdekking en materiaalontwerp. Hoewel eerdere inspanningen zich richten op 3D-diffusiemodellen vanwege hun voordelen bij het modelleren van continue 3D-conformeren, negeren ze de voordelen van 1D SELFIES-gebaseerde taalmodellen (LMs), die 100% geldige moleculen kunnen genereren en gebruikmaken van de miljardenschalige 1D-molecuuldatasets. Om deze voordelen te combineren voor 3D-molecuulgeneratie, stellen we een foundation model voor -- NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation. NExT-Mol gebruikt een uitgebreid voorgetraind molecuul-LM voor 1D-molecuulgeneratie, en voorspelt vervolgens de 3D-conformeren van het gegenereerde molecuul met een 3D-diffusiemodel. We verbeteren de prestaties van NExT-Mol door de modelgrootte van het LM op te schalen, de diffusieneurale architectuur te verfijnen en 1D-naar-3D transfer learning toe te passen. Opmerkelijk is dat ons 1D-molecuul-LM de baseline aanzienlijk overtreft in distributiegelijkheid terwijl het de geldigheid waarborgt, en ons 3D-diffusiemodel behaalt toonaangevende prestaties in conformervoorspelling. Gezien deze verbeteringen in 1D- en 3D-modellering, behaalt NExT-Mol een relatieve verbetering van 26% in 3D FCD voor de novo 3D-generatie op GEOM-DRUGS, en een gemiddelde relatieve winst van 13% voor voorwaardelijke 3D-generatie op QM9-2014. Onze codes en voorgetrainde checkpoints zijn beschikbaar op https://github.com/acharkq/NExT-Mol.
English
3D molecule generation is crucial for drug discovery and material design. While prior efforts focus on 3D diffusion models for their benefits in modeling continuous 3D conformers, they overlook the advantages of 1D SELFIES-based Language Models (LMs), which can generate 100% valid molecules and leverage the billion-scale 1D molecule datasets. To combine these advantages for 3D molecule generation, we propose a foundation model -- NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation. NExT-Mol uses an extensively pretrained molecule LM for 1D molecule generation, and subsequently predicts the generated molecule's 3D conformers with a 3D diffusion model. We enhance NExT-Mol's performance by scaling up the LM's model size, refining the diffusion neural architecture, and applying 1D to 3D transfer learning. Notably, our 1D molecule LM significantly outperforms baselines in distributional similarity while ensuring validity, and our 3D diffusion model achieves leading performances in conformer prediction. Given these improvements in 1D and 3D modeling, NExT-Mol achieves a 26% relative improvement in 3D FCD for de novo 3D generation on GEOM-DRUGS, and a 13% average relative gain for conditional 3D generation on QM9-2014. Our codes and pretrained checkpoints are available at https://github.com/acharkq/NExT-Mol.
PDF82February 20, 2025