Verso uno Spazio Latente Unificato per la Modellazione di Diffusione Latente di Molecole 3D

Abstract

La generazione di molecole 3D è cruciale per la scoperta di farmaci e la scienza dei materiali, richiedendo modelli in grado di elaborare complesse multi-modalità, inclusi tipi di atomi, legami chimici e coordinate 3D. Una sfida chiave è integrare queste modalità di forme diverse mantenendo l'equivarianza SE(3) per le coordinate 3D. Per raggiungere questo obiettivo, gli approcci esistenti mantengono tipicamente spazi latenti separati per le modalità invarianti ed equivarianti, riducendo l'efficienza sia nell'addestramento che nel campionamento. In questo lavoro, proponiamo l'Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D), un VAE multi-modale che comprime molecole 3D in sequenze latenti da uno spazio latente unificato, mantenendo un errore di ricostruzione quasi nullo. Questo spazio latente unificato elimina le complessità di gestire la multi-modalità e l'equivarianza durante la modellazione della diffusione latente. Dimostriamo ciò utilizzando il Diffusion Transformer—un modello di diffusione generico senza alcun bias induttivo molecolare—per la generazione latente. Esperimenti estesi sui dataset GEOM-Drugs e QM9 dimostrano che il nostro metodo stabilisce significativamente nuovi benchmark sia nella generazione di molecole 3D de novo che condizionata, raggiungendo una qualità ed efficienza leader.

English

3D molecule generation is crucial for drug discovery and material science, requiring models to process complex multi-modalities, including atom types, chemical bonds, and 3D coordinates. A key challenge is integrating these modalities of different shapes while maintaining SE(3) equivariance for 3D coordinates. To achieve this, existing approaches typically maintain separate latent spaces for invariant and equivariant modalities, reducing efficiency in both training and sampling. In this work, we propose Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D), a multi-modal VAE that compresses 3D molecules into latent sequences from a unified latent space, while maintaining near-zero reconstruction error. This unified latent space eliminates the complexities of handling multi-modality and equivariance when performing latent diffusion modeling. We demonstrate this by employing the Diffusion Transformer--a general-purpose diffusion model without any molecular inductive bias--for latent generation. Extensive experiments on GEOM-Drugs and QM9 datasets demonstrate that our method significantly establishes new benchmarks in both de novo and conditional 3D molecule generation, achieving leading efficiency and quality.

Verso uno Spazio Latente Unificato per la Modellazione di Diffusione Latente di Molecole 3D

Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling

Abstract

Support