Transformer-Modelle entdecken molekulare Strukturen ohne Graph-Priors
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
papers.authors: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
papers.abstract
Graph Neural Networks (GNNs) sind die dominierende Architektur für molekulares maschinelles Lernen, insbesondere für die Vorhersage molekularer Eigenschaften und maschinelle Lernverfahren für interatomare Potentiale (MLIPs). GNNs führen Message Passing auf vordefinierten Graphen durch, die oft durch einen festen Radius-Cutoff oder ein k-Nächste-Nachbarn-Schema erzeugt werden. Während dieses Design mit der Lokalität vieler molekularer Aufgaben übereinstimmt, kann ein fest kodierter Graph die Ausdrucksfähigkeit aufgrund des festen rezeptiven Feldes einschränken und die Inferenz durch spärliche Graphoperationen verlangsamen. In dieser Arbeit untersuchen wir, ob reine, unveränderte Transformers, die direkt auf kartesischen Koordinaten trainiert werden – ohne vordefinierte Graphen oder physikalische Prioritäten – molekulare Energien und Kräfte approximieren können. Als Ausgangspunkt unserer Analyse zeigen wir, wie ein Transformer mit einem vergleichbaren Trainingsrechenbudget wettbewerbsfähige mittlere absolute Fehler bei Energie und Kräften erreichen kann, verglichen mit einem state-of-the-art äquivarianten GNN auf dem OMol25-Datensatz. Wir entdecken, dass der Transformer physikalisch konsistente Muster lernt – wie beispielsweise Aufmerksamkeitsgewichte, die umgekehrt mit dem interatomaren Abstand abnehmen – und diese flexibel an verschiedene molekulare Umgebungen anpasst, da keine fest kodierten Verzerrungen vorhanden sind. Die Verwendung eines Standard-Transformers ermöglicht auch vorhersehbare Verbesserungen in Bezug auf die Skalierung von Trainingsressourcen, was mit empirischen Skalierungsgesetzen übereinstimmt, die in anderen Domänen beobachtet wurden. Unsere Ergebnisse zeigen, dass viele vorteilhafte Eigenschaften von GNNs adaptiv in Transformern entstehen können, was die Notwendigkeit fest kodierter graphinduktiver Verzerrungen in Frage stellt und auf standardisierte, skalierbare Architekturen für die molekulare Modellierung hinweist.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.