Auf dem Weg zu einem einheitlichen latenten Raum für die latente Diffusionsmodellierung von 3D-Molekülen

papers.abstract

Die Generierung von 3D-Molekülen ist entscheidend für die Arzneimittelentdeckung und Materialwissenschaft und erfordert Modelle, die komplexe Multimodalitäten verarbeiten können, einschließlich Atomtypen, chemischer Bindungen und 3D-Koordinaten. Eine zentrale Herausforderung besteht darin, diese Modalitäten unterschiedlicher Formen zu integrieren, während die SE(3)-Äquivarianz für 3D-Koordinaten aufrechterhalten wird. Um dies zu erreichen, verwenden bestehende Ansätze typischerweise separate latente Räume für invariante und äquivariante Modalitäten, was die Effizienz sowohl beim Training als auch bei der Stichprobenentnahme verringert. In dieser Arbeit schlagen wir den Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D) vor, ein multimodales VAE, das 3D-Moleküle in latente Sequenzen aus einem einheitlichen latenten Raum komprimiert, während ein nahezu null Rekonstruktionsfehler aufrechterhalten wird. Dieser einheitliche latente Raum beseitigt die Komplexitäten der Handhabung von Multimodalität und Äquivarianz bei der Durchführung von latenten Diffusionsmodellierungen. Wir demonstrieren dies durch den Einsatz des Diffusion Transformers – ein allgemeiner Diffusionsmodell ohne molekulare Induktionsverzerrung – für die latente Generierung. Umfangreiche Experimente auf den Datensätzen GEOM-Drugs und QM9 zeigen, dass unsere Methode neue Maßstäbe sowohl in der de novo als auch in der konditionalen 3D-Molekülgenerierung setzt und führende Effizienz und Qualität erreicht.

English

3D molecule generation is crucial for drug discovery and material science, requiring models to process complex multi-modalities, including atom types, chemical bonds, and 3D coordinates. A key challenge is integrating these modalities of different shapes while maintaining SE(3) equivariance for 3D coordinates. To achieve this, existing approaches typically maintain separate latent spaces for invariant and equivariant modalities, reducing efficiency in both training and sampling. In this work, we propose Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D), a multi-modal VAE that compresses 3D molecules into latent sequences from a unified latent space, while maintaining near-zero reconstruction error. This unified latent space eliminates the complexities of handling multi-modality and equivariance when performing latent diffusion modeling. We demonstrate this by employing the Diffusion Transformer--a general-purpose diffusion model without any molecular inductive bias--for latent generation. Extensive experiments on GEOM-Drugs and QM9 datasets demonstrate that our method significantly establishes new benchmarks in both de novo and conditional 3D molecule generation, achieving leading efficiency and quality.

Auf dem Weg zu einem einheitlichen latenten Raum für die latente Diffusionsmodellierung von 3D-Molekülen

Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling

papers.abstract

Support