DiffSpectra: Elucidazione della Struttura Molecolare da Spettri utilizzando Modelli di Diffusione
DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models
July 9, 2025
Autori: Liang Wang, Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI
Abstract
L'elucidazione della struttura molecolare a partire dagli spettri è un problema fondamentale in chimica, con profonde implicazioni per l'identificazione dei composti, la sintesi e lo sviluppo di farmaci. I metodi tradizionali si basano fortemente sull'interpretazione degli esperti e mancano di scalabilità. I metodi pionieristici di machine learning hanno introdotto strategie basate sul recupero, ma la loro dipendenza da librerie finite limita la generalizzazione a molecole nuove. I modelli generativi offrono un'alternativa promettente, tuttavia la maggior parte adotta architetture autoregressive basate su SMILES che trascurano la geometria 3D e faticano a integrare modalità spettrali diverse. In questo lavoro, presentiamo DiffSpectra, un framework generativo che inferisce direttamente sia strutture molecolari 2D che 3D da dati spettrali multi-modali utilizzando modelli di diffusione. DiffSpectra formula l'elucidazione della struttura come un processo di generazione condizionata. La sua rete di denoising è parametrizzata da Diffusion Molecule Transformer, un'architettura SE(3)-equivariante che integra informazioni topologiche e geometriche. Il condizionamento è fornito da SpecFormer, un encoder spettrale basato su transformer che cattura le dipendenze intra- e inter-spettrali da spettri multi-modali. Esperimenti estensivi dimostrano che DiffSpectra raggiunge un'elevata accuratezza nell'elucidazione della struttura, recuperando strutture esatte con un'accuratezza top-1 del 16,01% e un'accuratezza top-20 del 96,86% attraverso il campionamento. Il modello beneficia significativamente della modellazione geometrica 3D, del pre-training di SpecFormer e del condizionamento multi-modale. Questi risultati evidenziano l'efficacia della modellazione di diffusione condizionata agli spettri nell'affrontare la sfida dell'elucidazione della struttura molecolare. A nostra conoscenza, DiffSpectra è il primo framework a unificare il ragionamento spettrale multi-modale e la modellazione generativa congiunta 2D/3D per l'elucidazione de novo della struttura molecolare.
English
Molecular structure elucidation from spectra is a foundational problem in
chemistry, with profound implications for compound identification, synthesis,
and drug development. Traditional methods rely heavily on expert interpretation
and lack scalability. Pioneering machine learning methods have introduced
retrieval-based strategies, but their reliance on finite libraries limits
generalization to novel molecules. Generative models offer a promising
alternative, yet most adopt autoregressive SMILES-based architectures that
overlook 3D geometry and struggle to integrate diverse spectral modalities. In
this work, we present DiffSpectra, a generative framework that directly infers
both 2D and 3D molecular structures from multi-modal spectral data using
diffusion models. DiffSpectra formulates structure elucidation as a conditional
generation process. Its denoising network is parameterized by Diffusion
Molecule Transformer, an SE(3)-equivariant architecture that integrates
topological and geometric information. Conditioning is provided by SpecFormer,
a transformer-based spectral encoder that captures intra- and inter-spectral
dependencies from multi-modal spectra. Extensive experiments demonstrate that
DiffSpectra achieves high accuracy in structure elucidation, recovering exact
structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through
sampling. The model benefits significantly from 3D geometric modeling,
SpecFormer pre-training, and multi-modal conditioning. These results highlight
the effectiveness of spectrum-conditioned diffusion modeling in addressing the
challenge of molecular structure elucidation. To our knowledge, DiffSpectra is
the first framework to unify multi-modal spectral reasoning and joint 2D/3D
generative modeling for de novo molecular structure elucidation.