DiffSpectra：基于扩散模型的光谱分子结构解析

摘要

从光谱解析分子结构是化学领域的一个基础性问题，对化合物鉴定、合成及药物开发具有深远影响。传统方法主要依赖专家解读，且缺乏可扩展性。开创性的机器学习方法引入了基于检索的策略，但其对有限库的依赖限制了其对新型分子的泛化能力。生成模型提供了一种有前景的替代方案，然而大多数采用自回归的SMILES架构，忽视了三维几何结构，且难以整合多种光谱模态。在本研究中，我们提出了DiffSpectra，一个利用扩散模型直接从多模态光谱数据推断二维和三维分子结构的生成框架。DiffSpectra将结构解析过程形式化为条件生成任务，其去噪网络由扩散分子变换器参数化，这是一种整合了拓扑与几何信息的SE(3)等变架构。条件信息由SpecFormer提供，这是一种基于变换器的光谱编码器，能够捕捉多模态光谱内的谱间及谱内依赖关系。大量实验表明，DiffSpectra在结构解析上实现了高精度，通过采样恢复了16.01%的top-1准确率和96.86%的top-20准确率的精确结构。该模型显著受益于三维几何建模、SpecFormer预训练及多模态条件处理。这些结果凸显了基于光谱条件的扩散建模在解决分子结构解析挑战中的有效性。据我们所知，DiffSpectra是首个统一多模态光谱推理与联合二维/三维生成建模，用于从头分子结构解析的框架。

English

Molecular structure elucidation from spectra is a foundational problem in chemistry, with profound implications for compound identification, synthesis, and drug development. Traditional methods rely heavily on expert interpretation and lack scalability. Pioneering machine learning methods have introduced retrieval-based strategies, but their reliance on finite libraries limits generalization to novel molecules. Generative models offer a promising alternative, yet most adopt autoregressive SMILES-based architectures that overlook 3D geometry and struggle to integrate diverse spectral modalities. In this work, we present DiffSpectra, a generative framework that directly infers both 2D and 3D molecular structures from multi-modal spectral data using diffusion models. DiffSpectra formulates structure elucidation as a conditional generation process. Its denoising network is parameterized by Diffusion Molecule Transformer, an SE(3)-equivariant architecture that integrates topological and geometric information. Conditioning is provided by SpecFormer, a transformer-based spectral encoder that captures intra- and inter-spectral dependencies from multi-modal spectra. Extensive experiments demonstrate that DiffSpectra achieves high accuracy in structure elucidation, recovering exact structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through sampling. The model benefits significantly from 3D geometric modeling, SpecFormer pre-training, and multi-modal conditioning. These results highlight the effectiveness of spectrum-conditioned diffusion modeling in addressing the challenge of molecular structure elucidation. To our knowledge, DiffSpectra is the first framework to unify multi-modal spectral reasoning and joint 2D/3D generative modeling for de novo molecular structure elucidation.

DiffSpectra：基于扩散模型的光谱分子结构解析

DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models

摘要

Support