Les Transformers découvrent la structure moléculaire sans a priori sur les graphes
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
papers.authors: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
papers.abstract
Les réseaux de neurones graphiques (GNN) constituent l'architecture dominante pour l'apprentissage automatique moléculaire, en particulier pour la prédiction des propriétés moléculaires et les potentiels interatomiques basés sur l'apprentissage automatique (MLIP). Les GNN effectuent un passage de messages sur des graphes prédéfinis, souvent induits par un rayon de coupure fixe ou un schéma des k-plus proches voisins. Bien que cette conception s'aligne sur la localité présente dans de nombreuses tâches moléculaires, un graphe prédéfini peut limiter l'expressivité en raison du champ réceptif fixe et ralentir l'inférence avec des opérations sur des graphes creux. Dans ce travail, nous étudions si des Transformers purs, non modifiés, entraînés directement sur des coordonnées cartésiennes—sans graphes prédéfinis ni connaissances physiques préalables—peuvent approximer les énergies et les forces moléculaires. Comme point de départ de notre analyse, nous montrons comment entraîner un Transformer pour atteindre des erreurs absolues moyennes compétitives en énergie et en force, avec un budget de calcul d'entraînement équivalent, par rapport à un GNN équivariant de pointe sur le jeu de données OMol25. Nous découvrons que le Transformer apprend des motifs physiquement cohérents—tels que des poids d'attention qui décroissent inversement avec la distance interatomique—et les adapte de manière flexible à différents environnements moléculaires, en l'absence de biais prédéfinis. L'utilisation d'un Transformer standard permet également des améliorations prévisibles en fonction de l'augmentation des ressources d'entraînement, conformément aux lois d'échelle empiriques observées dans d'autres domaines. Nos résultats démontrent que de nombreuses propriétés favorables des GNN peuvent émerger de manière adaptative dans les Transformers, remettant en question la nécessité des biais inductifs de graphes prédéfinis et ouvrant la voie à des architectures standardisées et évolutives pour la modélisation moléculaire.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.