ChatPaper.aiChatPaper

DiffSpectra : Élucidation de la structure moléculaire à partir de spectres utilisant des modèles de diffusion

DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models

July 9, 2025
papers.authors: Liang Wang, Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI

papers.abstract

L'élucidation de la structure moléculaire à partir des spectres constitue un problème fondamental en chimie, avec des implications profondes pour l'identification des composés, la synthèse et le développement de médicaments. Les méthodes traditionnelles reposent fortement sur l'interprétation experte et manquent de scalabilité. Les méthodes pionnières d'apprentissage automatique ont introduit des stratégies basées sur la recherche, mais leur dépendance à des bibliothèques finies limite la généralisation à des molécules nouvelles. Les modèles génératifs offrent une alternative prometteuse, mais la plupart adoptent des architectures autoregressives basées sur SMILES qui négligent la géométrie 3D et peinent à intégrer des modalités spectrales diverses. Dans ce travail, nous présentons DiffSpectra, un cadre génératif qui infère directement les structures moléculaires 2D et 3D à partir de données spectrales multi-modales en utilisant des modèles de diffusion. DiffSpectra formule l'élucidation de la structure comme un processus de génération conditionnelle. Son réseau de débruîtage est paramétré par Diffusion Molecule Transformer, une architecture SE(3)-équivariante qui intègre des informations topologiques et géométriques. Le conditionnement est assuré par SpecFormer, un encodeur spectral basé sur les transformers qui capture les dépendances intra- et inter-spectrales à partir de spectres multi-modaux. Des expériences approfondies démontrent que DiffSpectra atteint une grande précision dans l'élucidation de la structure, retrouvant les structures exactes avec une précision top-1 de 16,01 % et une précision top-20 de 96,86 % par échantillonnage. Le modèle bénéficie significativement de la modélisation géométrique 3D, du pré-entraînement de SpecFormer et du conditionnement multi-modal. Ces résultats mettent en évidence l'efficacité de la modélisation par diffusion conditionnée par les spectres pour relever le défi de l'élucidation de la structure moléculaire. À notre connaissance, DiffSpectra est le premier cadre à unifier le raisonnement spectral multi-modal et la modélisation générative conjointe 2D/3D pour l'élucidation de novo de la structure moléculaire.
English
Molecular structure elucidation from spectra is a foundational problem in chemistry, with profound implications for compound identification, synthesis, and drug development. Traditional methods rely heavily on expert interpretation and lack scalability. Pioneering machine learning methods have introduced retrieval-based strategies, but their reliance on finite libraries limits generalization to novel molecules. Generative models offer a promising alternative, yet most adopt autoregressive SMILES-based architectures that overlook 3D geometry and struggle to integrate diverse spectral modalities. In this work, we present DiffSpectra, a generative framework that directly infers both 2D and 3D molecular structures from multi-modal spectral data using diffusion models. DiffSpectra formulates structure elucidation as a conditional generation process. Its denoising network is parameterized by Diffusion Molecule Transformer, an SE(3)-equivariant architecture that integrates topological and geometric information. Conditioning is provided by SpecFormer, a transformer-based spectral encoder that captures intra- and inter-spectral dependencies from multi-modal spectra. Extensive experiments demonstrate that DiffSpectra achieves high accuracy in structure elucidation, recovering exact structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through sampling. The model benefits significantly from 3D geometric modeling, SpecFormer pre-training, and multi-modal conditioning. These results highlight the effectiveness of spectrum-conditioned diffusion modeling in addressing the challenge of molecular structure elucidation. To our knowledge, DiffSpectra is the first framework to unify multi-modal spectral reasoning and joint 2D/3D generative modeling for de novo molecular structure elucidation.
PDF71July 10, 2025