MolSpectra: 다중 모달 에너지 스펙트럼을 활용한 3차원 분자 표현 사전 학습
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra
February 22, 2025
저자: Liang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
cs.AI
초록
3D 구조와 분자 시스템의 에너지 상태 간의 관계를 수립하는 것은 3D 분자 표현을 학습하는 데 있어 유망한 접근 방식으로 입증되었습니다. 그러나 기존 방법들은 고전 역학에서의 분자 에너지 상태 모델링에 국한되어 있습니다. 이러한 한계는 양자 역학적 효과, 예를 들어 양자화된(이산적인) 에너지 준위 구조와 같은 요소들을 간과하게 되며, 이는 분자 에너지를 더 정확하게 추정할 수 있고 에너지 스펙트럼을 통해 실험적으로 측정할 수 있는 요소들입니다. 본 논문에서는 에너지 스펙트럼을 활용하여 3D 분자 표현(MolSpectra)의 사전 학습을 강화함으로써, 양자 역학적 지식을 분자 표현에 통합하고자 제안합니다. 구체적으로, 마스킹된 패치 재구성을 통해 분자 스펙트럼을 인코딩하는 다중 스펙트럼 인코더인 SpecFormer를 제안합니다. 3D 인코더와 스펙트럼 인코더의 출력을 대조적 목표를 통해 추가로 정렬함으로써, 3D 인코더의 분자 이해를 강화합니다. 공개 벤치마크에 대한 평가 결과, 우리의 사전 학습된 표현이 분자 특성 예측 및 역학 모델링에서 기존 방법들을 능가하는 것으로 나타났습니다.
English
Establishing the relationship between 3D structures and the energy states of
molecular systems has proven to be a promising approach for learning 3D
molecular representations. However, existing methods are limited to modeling
the molecular energy states from classical mechanics. This limitation results
in a significant oversight of quantum mechanical effects, such as quantized
(discrete) energy level structures, which offer a more accurate estimation of
molecular energy and can be experimentally measured through energy spectra. In
this paper, we propose to utilize the energy spectra to enhance the
pre-training of 3D molecular representations (MolSpectra), thereby infusing the
knowledge of quantum mechanics into the molecular representations.
Specifically, we propose SpecFormer, a multi-spectrum encoder for encoding
molecular spectra via masked patch reconstruction. By further aligning outputs
from the 3D encoder and spectrum encoder using a contrastive objective, we
enhance the 3D encoder's understanding of molecules. Evaluations on public
benchmarks reveal that our pre-trained representations surpass existing methods
in predicting molecular properties and modeling dynamics.Summary
AI-Generated Summary