Transformers Ontdekken Moleculaire Structuur Zonder Grafische Priors
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
Auteurs: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
Samenvatting
Graph Neural Networks (GNNs) zijn de dominante architectuur voor moleculair machine learning, met name voor het voorspellen van moleculaire eigenschappen en machine learning interatomaire potentialen (MLIPs). GNNs voeren message passing uit op vooraf gedefinieerde grafieken, vaak gegenereerd door een vaste straal cutoff of een k-nearest neighbor schema. Hoewel dit ontwerp aansluit bij de localiteit die aanwezig is in veel moleculaire taken, kan een hardgecodeerde grafiek de expressiviteit beperken vanwege het vaste receptieve veld en de inferentie vertragen door sparse grafiekoperaties. In dit werk onderzoeken we of pure, ongemodificeerde Transformers die direct op Cartesiaanse coördinaten worden getraind—zonder vooraf gedefinieerde grafieken of fysische priors—moleculaire energieën en krachten kunnen benaderen. Als uitgangspunt voor onze analyse laten we zien hoe een Transformer kan worden getraind om competitieve gemiddelde absolute fouten in energie en krachten te bereiken onder een gelijkwaardig trainingsbudget, vergeleken met een state-of-the-art equivariante GNN op de OMol25 dataset. We ontdekken dat de Transformer fysisch consistente patronen leert—zoals aandachtgewichten die omgekeerd evenredig afnemen met de interatomaire afstand—en deze flexibel aanpast aan verschillende moleculaire omgevingen vanwege de afwezigheid van hardgecodeerde biases. Het gebruik van een standaard Transformer maakt ook voorspelbare verbeteringen mogelijk met betrekking tot het schalen van trainingsbronnen, consistent met empirische schaalwetten die in andere domeinen zijn waargenomen. Onze resultaten tonen aan dat veel gunstige eigenschappen van GNNs adaptief kunnen ontstaan in Transformers, wat de noodzaak van hardgecodeerde grafische inductieve biases uitdaagt en wijst naar gestandaardiseerde, schaalbare architecturen voor moleculaire modellering.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.