ChatPaper.aiChatPaper

DiffSpectra: Elucidación de Estructuras Moleculares a partir de Espectros utilizando Modelos de Difusión

DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models

July 9, 2025
Autores: Liang Wang, Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI

Resumen

La elucidación de estructuras moleculares a partir de espectros es un problema fundamental en química, con implicaciones profundas para la identificación de compuestos, síntesis y desarrollo de fármacos. Los métodos tradicionales dependen en gran medida de la interpretación experta y carecen de escalabilidad. Los métodos pioneros de aprendizaje automático han introducido estrategias basadas en recuperación, pero su dependencia de bibliotecas finitas limita la generalización a moléculas novedosas. Los modelos generativos ofrecen una alternativa prometedora, aunque la mayoría adopta arquitecturas autoregresivas basadas en SMILES que pasan por alto la geometría 3D y tienen dificultades para integrar modalidades espectrales diversas. En este trabajo, presentamos DiffSpectra, un marco generativo que infiere directamente estructuras moleculares tanto 2D como 3D a partir de datos espectrales multimodales utilizando modelos de difusión. DiffSpectra formula la elucidación de estructuras como un proceso de generación condicional. Su red de eliminación de ruido está parametrizada por Diffusion Molecule Transformer, una arquitectura SE(3)-equivariante que integra información topológica y geométrica. La condición es proporcionada por SpecFormer, un codificador espectral basado en transformadores que captura dependencias intra e inter-espectrales de espectros multimodales. Experimentos extensos demuestran que DiffSpectra logra una alta precisión en la elucidación de estructuras, recuperando estructuras exactas con un 16.01% de precisión top-1 y un 96.86% de precisión top-20 mediante muestreo. El modelo se beneficia significativamente del modelado geométrico 3D, el pre-entrenamiento de SpecFormer y el condicionamiento multimodal. Estos resultados resaltan la efectividad del modelado de difusión condicionado por espectros para abordar el desafío de la elucidación de estructuras moleculares. Hasta donde sabemos, DiffSpectra es el primer marco que unifica el razonamiento espectral multimodal y el modelado generativo conjunto 2D/3D para la elucidación de novo de estructuras moleculares.
English
Molecular structure elucidation from spectra is a foundational problem in chemistry, with profound implications for compound identification, synthesis, and drug development. Traditional methods rely heavily on expert interpretation and lack scalability. Pioneering machine learning methods have introduced retrieval-based strategies, but their reliance on finite libraries limits generalization to novel molecules. Generative models offer a promising alternative, yet most adopt autoregressive SMILES-based architectures that overlook 3D geometry and struggle to integrate diverse spectral modalities. In this work, we present DiffSpectra, a generative framework that directly infers both 2D and 3D molecular structures from multi-modal spectral data using diffusion models. DiffSpectra formulates structure elucidation as a conditional generation process. Its denoising network is parameterized by Diffusion Molecule Transformer, an SE(3)-equivariant architecture that integrates topological and geometric information. Conditioning is provided by SpecFormer, a transformer-based spectral encoder that captures intra- and inter-spectral dependencies from multi-modal spectra. Extensive experiments demonstrate that DiffSpectra achieves high accuracy in structure elucidation, recovering exact structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through sampling. The model benefits significantly from 3D geometric modeling, SpecFormer pre-training, and multi-modal conditioning. These results highlight the effectiveness of spectrum-conditioned diffusion modeling in addressing the challenge of molecular structure elucidation. To our knowledge, DiffSpectra is the first framework to unify multi-modal spectral reasoning and joint 2D/3D generative modeling for de novo molecular structure elucidation.
PDF61July 10, 2025