Transformers Ontdekken Moleculaire Structuur Zonder Grafische Priors

Samenvatting

Graph Neural Networks (GNNs) zijn de dominante architectuur voor moleculair machine learning, met name voor het voorspellen van moleculaire eigenschappen en machine learning interatomaire potentialen (MLIPs). GNNs voeren message passing uit op vooraf gedefinieerde grafieken, vaak gegenereerd door een vaste straal cutoff of een k-nearest neighbor schema. Hoewel dit ontwerp aansluit bij de localiteit die aanwezig is in veel moleculaire taken, kan een hardgecodeerde grafiek de expressiviteit beperken vanwege het vaste receptieve veld en de inferentie vertragen door sparse grafiekoperaties. In dit werk onderzoeken we of pure, ongemodificeerde Transformers die direct op Cartesiaanse coördinaten worden getraind—zonder vooraf gedefinieerde grafieken of fysische priors—moleculaire energieën en krachten kunnen benaderen. Als uitgangspunt voor onze analyse laten we zien hoe een Transformer kan worden getraind om competitieve gemiddelde absolute fouten in energie en krachten te bereiken onder een gelijkwaardig trainingsbudget, vergeleken met een state-of-the-art equivariante GNN op de OMol25 dataset. We ontdekken dat de Transformer fysisch consistente patronen leert—zoals aandachtgewichten die omgekeerd evenredig afnemen met de interatomaire afstand—en deze flexibel aanpast aan verschillende moleculaire omgevingen vanwege de afwezigheid van hardgecodeerde biases. Het gebruik van een standaard Transformer maakt ook voorspelbare verbeteringen mogelijk met betrekking tot het schalen van trainingsbronnen, consistent met empirische schaalwetten die in andere domeinen zijn waargenomen. Onze resultaten tonen aan dat veel gunstige eigenschappen van GNNs adaptief kunnen ontstaan in Transformers, wat de noodzaak van hardgecodeerde grafische inductieve biases uitdaagt en wijst naar gestandaardiseerde, schaalbare architecturen voor moleculaire modellering.

English

Graph Neural Networks (GNNs) are the dominant architecture for molecular machine learning, particularly for molecular property prediction and machine learning interatomic potentials (MLIPs). GNNs perform message passing on predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor scheme. While this design aligns with the locality present in many molecular tasks, a hard-coded graph can limit expressivity due to the fixed receptive field and slows down inference with sparse graph operations. In this work, we investigate whether pure, unmodified Transformers trained directly on Cartesian coordinatesx2013without predefined graphs or physical priorsx2013can approximate molecular energies and forces. As a starting point for our analysis, we demonstrate how to train a Transformer to competitive energy and force mean absolute errors under a matched training compute budget, relative to a state-of-the-art equivariant GNN on the OMol25 dataset. We discover that the Transformer learns physically consistent patternsx2013such as attention weights that decay inversely with interatomic distancex2013and flexibly adapts them across different molecular environments due to the absence of hard-coded biases. The use of a standard Transformer also unlocks predictable improvements with respect to scaling training resources, consistent with empirical scaling laws observed in other domains. Our results demonstrate that many favorable properties of GNNs can emerge adaptively in Transformers, challenging the necessity of hard-coded graph inductive biases and pointing toward standardized, scalable architectures for molecular modeling.

Transformers Ontdekken Moleculaire Structuur Zonder Grafische Priors

Transformers Discover Molecular Structure Without Graph Priors

Samenvatting

Support