I Transformer Scoprono la Struttura Molecolare Senza Priorità Grafiche
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
Autori: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
Abstract
Le Reti Neurali su Grafi (GNN) rappresentano l'architettura dominante per l'apprendimento automatico molecolare, in particolare per la previsione delle proprietà molecolari e per i potenziali interatomici basati su machine learning (MLIP). Le GNN eseguono il passaggio di messaggi su grafi predefiniti, spesso indotti da un raggio di cutoff fisso o da uno schema basato sui k-vicini più prossimi. Sebbene questo design si allinei con la località presente in molti compiti molecolari, un grafo hard-coded può limitare l'espressività a causa del campo ricettivo fisso e rallentare l'inferenza con operazioni su grafi sparsi. In questo lavoro, indaghiamo se i Transformer puri e non modificati, addestrati direttamente sulle coordinate cartesiane—senza grafi predefiniti o prior fisici—possano approssimare le energie e le forze molecolari. Come punto di partenza per la nostra analisi, dimostriamo come addestrare un Transformer per ottenere errori assoluti medi competitivi su energia e forza, con un budget di calcolo di addestramento equivalente, rispetto a una GNN equivariante all'avanguardia sul dataset OMol25. Scopriamo che il Transformer apprende schemi fisicamente consistenti—come pesi di attenzione che decadono inversamente con la distanza interatomica—e li adatta in modo flessibile in diversi ambienti molecolari grazie all'assenza di bias hard-coded. L'uso di un Transformer standard consente anche miglioramenti prevedibili rispetto alla scalabilità delle risorse di addestramento, in linea con le leggi di scalatura empiriche osservate in altri domini. I nostri risultati dimostrano che molte proprietà favorevoli delle GNN possono emergere in modo adattivo nei Transformer, mettendo in discussione la necessità di bias induttivi hard-coded sui grafi e indicando architetture standardizzate e scalabili per la modellazione molecolare.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.