ChatPaper.aiChatPaper

DiffSpectra: 확산 모델을 활용한 스펙트럼 기반 분자 구조 해석

DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models

July 9, 2025
저자: Liang Wang, Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI

초록

스펙트럼으로부터 분자 구조를 규명하는 것은 화학에서 기초적인 문제로, 화합물 식별, 합성 및 약물 개발에 깊은 영향을 미칩니다. 전통적인 방법은 전문가의 해석에 크게 의존하며 확장성이 부족합니다. 선구적인 기계 학습 방법은 검색 기반 전략을 도입했지만, 유한한 라이브러리에 의존하기 때문에 새로운 분자에 대한 일반화가 제한됩니다. 생성 모델은 유망한 대안을 제공하지만, 대부분이 3D 기하학을 간과하고 다양한 스펙트럼 양식을 통합하는 데 어려움을 겪는 자기회귀적 SMILES 기반 아키텍처를 채택합니다. 본 연구에서는 확산 모델을 사용하여 다중 모달 스펙트럼 데이터로부터 2D 및 3D 분자 구조를 직접 추론하는 생성 프레임워크인 DiffSpectra를 제시합니다. DiffSpectra는 구조 규명을 조건부 생성 과정으로 공식화합니다. 이 프레임워크의 노이즈 제거 네트워크는 위상 및 기하학적 정보를 통합하는 SE(3)-등변 아키텍처인 Diffusion Molecule Transformer로 매개변수화됩니다. 조건화는 다중 모달 스펙트럼으로부터 스펙트럼 내 및 스펙트럼 간 의존성을 포착하는 트랜스포머 기반 스펙트럼 인코더인 SpecFormer에 의해 제공됩니다. 광범위한 실험을 통해 DiffSpectra가 구조 규명에서 높은 정확도를 달성하며, 샘플링을 통해 정확한 구조를 16.01%의 top-1 정확도와 96.86%의 top-20 정확도로 복구함을 입증했습니다. 이 모델은 3D 기하학적 모델링, SpecFormer 사전 학습 및 다중 모달 조건화로부터 상당한 이점을 얻습니다. 이러한 결과는 스펙트럼 조건화 확산 모델링이 분자 구조 규명의 도전을 해결하는 데 효과적임을 강조합니다. 우리가 아는 한, DiffSpectra는 다중 모달 스펙트럼 추론과 2D/3D 생성 모델링을 통합하여 새로운 분자 구조를 규명하는 최초의 프레임워크입니다.
English
Molecular structure elucidation from spectra is a foundational problem in chemistry, with profound implications for compound identification, synthesis, and drug development. Traditional methods rely heavily on expert interpretation and lack scalability. Pioneering machine learning methods have introduced retrieval-based strategies, but their reliance on finite libraries limits generalization to novel molecules. Generative models offer a promising alternative, yet most adopt autoregressive SMILES-based architectures that overlook 3D geometry and struggle to integrate diverse spectral modalities. In this work, we present DiffSpectra, a generative framework that directly infers both 2D and 3D molecular structures from multi-modal spectral data using diffusion models. DiffSpectra formulates structure elucidation as a conditional generation process. Its denoising network is parameterized by Diffusion Molecule Transformer, an SE(3)-equivariant architecture that integrates topological and geometric information. Conditioning is provided by SpecFormer, a transformer-based spectral encoder that captures intra- and inter-spectral dependencies from multi-modal spectra. Extensive experiments demonstrate that DiffSpectra achieves high accuracy in structure elucidation, recovering exact structures with 16.01% top-1 accuracy and 96.86% top-20 accuracy through sampling. The model benefits significantly from 3D geometric modeling, SpecFormer pre-training, and multi-modal conditioning. These results highlight the effectiveness of spectrum-conditioned diffusion modeling in addressing the challenge of molecular structure elucidation. To our knowledge, DiffSpectra is the first framework to unify multi-modal spectral reasoning and joint 2D/3D generative modeling for de novo molecular structure elucidation.
PDF71July 10, 2025