Verso uno Spazio Latente Unificato per la Modellazione di Diffusione Latente di Molecole 3D
Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling
March 19, 2025
Autori: Yanchen Luo, Zhiyuan Liu, Yi Zhao, Sihang Li, Kenji Kawaguchi, Tat-Seng Chua, Xiang Wang
cs.AI
Abstract
La generazione di molecole 3D è cruciale per la scoperta di farmaci e la scienza dei materiali, richiedendo modelli in grado di elaborare complesse multi-modalità, inclusi tipi di atomi, legami chimici e coordinate 3D. Una sfida chiave è integrare queste modalità di forme diverse mantenendo l'equivarianza SE(3) per le coordinate 3D. Per raggiungere questo obiettivo, gli approcci esistenti mantengono tipicamente spazi latenti separati per le modalità invarianti ed equivarianti, riducendo l'efficienza sia nell'addestramento che nel campionamento. In questo lavoro, proponiamo l'Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D), un VAE multi-modale che comprime molecole 3D in sequenze latenti da uno spazio latente unificato, mantenendo un errore di ricostruzione quasi nullo. Questo spazio latente unificato elimina le complessità di gestire la multi-modalità e l'equivarianza durante la modellazione della diffusione latente. Dimostriamo ciò utilizzando il Diffusion Transformer—un modello di diffusione generico senza alcun bias induttivo molecolare—per la generazione latente. Esperimenti estesi sui dataset GEOM-Drugs e QM9 dimostrano che il nostro metodo stabilisce significativamente nuovi benchmark sia nella generazione di molecole 3D de novo che condizionata, raggiungendo una qualità ed efficienza leader.
English
3D molecule generation is crucial for drug discovery and material science,
requiring models to process complex multi-modalities, including atom types,
chemical bonds, and 3D coordinates. A key challenge is integrating these
modalities of different shapes while maintaining SE(3) equivariance for 3D
coordinates. To achieve this, existing approaches typically maintain separate
latent spaces for invariant and equivariant modalities, reducing efficiency in
both training and sampling. In this work, we propose Unified
Variational Auto-Encoder for 3D Molecular Latent
Diffusion Modeling (UAE-3D), a multi-modal VAE that compresses 3D
molecules into latent sequences from a unified latent space, while maintaining
near-zero reconstruction error. This unified latent space eliminates the
complexities of handling multi-modality and equivariance when performing latent
diffusion modeling. We demonstrate this by employing the Diffusion
Transformer--a general-purpose diffusion model without any molecular inductive
bias--for latent generation. Extensive experiments on GEOM-Drugs and QM9
datasets demonstrate that our method significantly establishes new benchmarks
in both de novo and conditional 3D molecule generation, achieving
leading efficiency and quality.