그래프 사전 지식 없이도 분자 구조를 발견하는 트랜스포머
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
저자: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
초록
그래프 신경망(GNNs)은 분자 기계 학습, 특히 분자 특성 예측 및 기계 학습 원자간 포텐셜(MLIPs)을 위한 주요 아키텍처입니다. GNN은 고정된 반경 커트오프 또는 k-최근접 이웃 방식으로 유도된 미리 정의된 그래프에서 메시지 전달을 수행합니다. 이러한 설계는 많은 분자 작업에서 나타나는 지역성과 일치하지만, 고정된 수용 필드로 인해 하드코딩된 그래프는 표현력을 제한할 수 있으며 희소 그래프 연산으로 인해 추론 속도를 저하시킬 수 있습니다. 본 연구에서는 미리 정의된 그래프나 물리적 사전 지식 없이 직교 좌표에 직접 학습된 순수하고 수정되지 않은 트랜스포머가 분자 에너지와 힘을 근사할 수 있는지 조사합니다. 분석의 출발점으로, 우리는 OMol25 데이터셋에서 최신 등변 GNN과 비교하여 일치하는 학습 계산 예산 하에서 트랜스포머가 경쟁력 있는 에너지 및 힘 평균 절대 오차를 달성하도록 학습하는 방법을 보여줍니다. 우리는 트랜스포머가 원자간 거리에 반비례하여 감소하는 주의 가중치와 같은 물리적으로 일관된 패턴을 학습하고, 하드코딩된 편향이 없기 때문에 다양한 분자 환경에서 유연하게 적응한다는 것을 발견했습니다. 표준 트랜스포머의 사용은 또한 다른 도메인에서 관찰된 경험적 스케일링 법칙과 일치하는 학습 자원 스케일링에 대한 예측 가능한 개선을 가능하게 합니다. 우리의 결과는 GNN의 많은 유리한 특성이 트랜스포머에서 적응적으로 나타날 수 있음을 보여주며, 하드코딩된 그래프 귀납적 편향의 필요성에 도전하고 분자 모델링을 위한 표준화되고 확장 가능한 아키텍처를 제시합니다.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.