ChatPaper.aiChatPaper

DiffSpectra: Molekülstrukturaufklärung aus Spektren mittels Diffusionsmodellen

DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models

July 9, 2025
papers.authors: Liang Wang, Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI

papers.abstract

Die Aufklärung molekularer Strukturen aus Spektren ist ein grundlegendes Problem in der Chemie mit weitreichenden Auswirkungen auf die Identifikation von Verbindungen, die Synthese und die Arzneimittelentwicklung. Traditionelle Methoden stützen sich stark auf die Interpretation durch Experten und sind nicht skalierbar. Pionierarbeit leistende maschinelle Lernmethoden haben abrufbasierte Strategien eingeführt, doch ihre Abhängigkeit von begrenzten Bibliotheken schränkt die Generalisierung auf neuartige Moleküle ein. Generative Modelle bieten eine vielversprechende Alternative, doch die meisten verwenden autoregressive SMILES-basierte Architekturen, die die 3D-Geometrie vernachlässigen und Schwierigkeiten haben, diverse spektrale Modalitäten zu integrieren. In dieser Arbeit präsentieren wir DiffSpectra, ein generatives Framework, das sowohl 2D- als auch 3D-Molekülstrukturen direkt aus multimodalen spektralen Daten mithilfe von Diffusionsmodellen ableitet. DiffSpectra formuliert die Strukturaufklärung als einen bedingten Generierungsprozess. Sein Denoising-Netzwerk wird durch den Diffusion Molecule Transformer parametrisiert, eine SE(3)-äquivariante Architektur, die topologische und geometrische Informationen integriert. Die Bedingung wird durch SpecFormer bereitgestellt, einen Transformer-basierten spektralen Encoder, der intra- und interspektrale Abhängigkeiten aus multimodalen Spektren erfasst. Umfangreiche Experimente zeigen, dass DiffSpectra eine hohe Genauigkeit bei der Strukturaufklärung erreicht und exakte Strukturen mit einer Top-1-Genauigkeit von 16,01 % und einer Top-20-Genauigkeit von 96,86 % durch Sampling wiederherstellt. Das Modell profitiert erheblich von der 3D-geometrischen Modellierung, dem Pre-Training von SpecFormer und der multimodalen Bedingung. Diese Ergebnisse unterstreichen die Effektivität des spektrumbedingten Diffusionsmodellierens bei der Bewältigung der Herausforderung der molekularen Strukturaufklärung. Unseres Wissens ist DiffSpectra das erste Framework, das multimodale spektrale Schlussfolgerung und gemeinsame 2D/3D-generative Modellierung für die de novo molekulare Strukturaufklärung vereint.
English
Molecular structure elucidation from spectra is a foundational problem in chemistry, with profound implications for compound identification, synthesis, and drug development. Traditional methods rely heavily on expert interpretation and lack scalability. Pioneering machine learning methods have introduced retrieval-based strategies, but their reliance on finite libraries limits generalization to novel molecules. Generative models offer a promising alternative, yet most adopt autoregressive SMILES-based architectures that overlook 3D geometry and struggle to integrate diverse spectral modalities. In this work, we present DiffSpectra, a generative framework that directly infers both 2D and 3D molecular structures from multi-modal spectral data using diffusion models. DiffSpectra formulates structure elucidation as a conditional generation process. Its denoising network is parameterized by Diffusion Molecule Transformer, an SE(3)-equivariant architecture that integrates topological and geometric information. Conditioning is provided by SpecFormer, a transformer-based spectral encoder that captures intra- and inter-spectral dependencies from multi-modal spectra. Extensive experiments demonstrate that DiffSpectra achieves high accuracy in structure elucidation, recovering exact structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through sampling. The model benefits significantly from 3D geometric modeling, SpecFormer pre-training, and multi-modal conditioning. These results highlight the effectiveness of spectrum-conditioned diffusion modeling in addressing the challenge of molecular structure elucidation. To our knowledge, DiffSpectra is the first framework to unify multi-modal spectral reasoning and joint 2D/3D generative modeling for de novo molecular structure elucidation.
PDF71July 10, 2025