ChatPaper.aiChatPaper

DiffSpectra: Elucidação de Estruturas Moleculares a partir de Espectros utilizando Modelos de Difusão

DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models

July 9, 2025
Autores: Liang Wang, Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI

Resumo

A elucidação da estrutura molecular a partir de espectros é um problema fundamental na química, com implicações profundas para a identificação de compostos, síntese e desenvolvimento de fármacos. Os métodos tradicionais dependem fortemente da interpretação de especialistas e carecem de escalabilidade. Métodos pioneiros de aprendizado de máquina introduziram estratégias baseadas em recuperação, mas sua dependência de bibliotecas finitas limita a generalização para moléculas novas. Modelos generativos oferecem uma alternativa promissora, porém a maioria adota arquiteturas autoregressivas baseadas em SMILES que ignoram a geometria 3D e lutam para integrar modalidades espectrais diversas. Neste trabalho, apresentamos o DiffSpectra, um framework generativo que infere diretamente estruturas moleculares 2D e 3D a partir de dados espectrais multimodais usando modelos de difusão. O DiffSpectra formula a elucidação de estruturas como um processo de geração condicional. Sua rede de remoção de ruído é parametrizada pelo Diffusion Molecule Transformer, uma arquitetura SE(3)-equivariante que integra informações topológicas e geométricas. O condicionamento é fornecido pelo SpecFormer, um codificador espectral baseado em transformers que captura dependências intra e inter-espectrais de espectros multimodais. Experimentos extensivos demonstram que o DiffSpectra alcança alta precisão na elucidação de estruturas, recuperando estruturas exatas com 16,01% de precisão top-1 e 96,86% de precisão top-20 por meio de amostragem. O modelo se beneficia significativamente da modelagem geométrica 3D, pré-treinamento do SpecFormer e condicionamento multimodal. Esses resultados destacam a eficácia da modelagem de difusão condicionada por espectro ao abordar o desafio da elucidação de estruturas moleculares. Até onde sabemos, o DiffSpectra é o primeiro framework a unificar o raciocínio espectral multimodal e a modelagem generativa conjunta 2D/3D para a elucidação de estruturas moleculares de novo.
English
Molecular structure elucidation from spectra is a foundational problem in chemistry, with profound implications for compound identification, synthesis, and drug development. Traditional methods rely heavily on expert interpretation and lack scalability. Pioneering machine learning methods have introduced retrieval-based strategies, but their reliance on finite libraries limits generalization to novel molecules. Generative models offer a promising alternative, yet most adopt autoregressive SMILES-based architectures that overlook 3D geometry and struggle to integrate diverse spectral modalities. In this work, we present DiffSpectra, a generative framework that directly infers both 2D and 3D molecular structures from multi-modal spectral data using diffusion models. DiffSpectra formulates structure elucidation as a conditional generation process. Its denoising network is parameterized by Diffusion Molecule Transformer, an SE(3)-equivariant architecture that integrates topological and geometric information. Conditioning is provided by SpecFormer, a transformer-based spectral encoder that captures intra- and inter-spectral dependencies from multi-modal spectra. Extensive experiments demonstrate that DiffSpectra achieves high accuracy in structure elucidation, recovering exact structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through sampling. The model benefits significantly from 3D geometric modeling, SpecFormer pre-training, and multi-modal conditioning. These results highlight the effectiveness of spectrum-conditioned diffusion modeling in addressing the challenge of molecular structure elucidation. To our knowledge, DiffSpectra is the first framework to unify multi-modal spectral reasoning and joint 2D/3D generative modeling for de novo molecular structure elucidation.
PDF71July 10, 2025