Les Transformers découvrent la structure moléculaire sans a priori sur les graphes

papers.abstract

Les réseaux de neurones graphiques (GNN) constituent l'architecture dominante pour l'apprentissage automatique moléculaire, en particulier pour la prédiction des propriétés moléculaires et les potentiels interatomiques basés sur l'apprentissage automatique (MLIP). Les GNN effectuent un passage de messages sur des graphes prédéfinis, souvent induits par un rayon de coupure fixe ou un schéma des k-plus proches voisins. Bien que cette conception s'aligne sur la localité présente dans de nombreuses tâches moléculaires, un graphe prédéfini peut limiter l'expressivité en raison du champ réceptif fixe et ralentir l'inférence avec des opérations sur des graphes creux. Dans ce travail, nous étudions si des Transformers purs, non modifiés, entraînés directement sur des coordonnées cartésiennes—sans graphes prédéfinis ni connaissances physiques préalables—peuvent approximer les énergies et les forces moléculaires. Comme point de départ de notre analyse, nous montrons comment entraîner un Transformer pour atteindre des erreurs absolues moyennes compétitives en énergie et en force, avec un budget de calcul d'entraînement équivalent, par rapport à un GNN équivariant de pointe sur le jeu de données OMol25. Nous découvrons que le Transformer apprend des motifs physiquement cohérents—tels que des poids d'attention qui décroissent inversement avec la distance interatomique—et les adapte de manière flexible à différents environnements moléculaires, en l'absence de biais prédéfinis. L'utilisation d'un Transformer standard permet également des améliorations prévisibles en fonction de l'augmentation des ressources d'entraînement, conformément aux lois d'échelle empiriques observées dans d'autres domaines. Nos résultats démontrent que de nombreuses propriétés favorables des GNN peuvent émerger de manière adaptative dans les Transformers, remettant en question la nécessité des biais inductifs de graphes prédéfinis et ouvrant la voie à des architectures standardisées et évolutives pour la modélisation moléculaire.

English

Graph Neural Networks (GNNs) are the dominant architecture for molecular machine learning, particularly for molecular property prediction and machine learning interatomic potentials (MLIPs). GNNs perform message passing on predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor scheme. While this design aligns with the locality present in many molecular tasks, a hard-coded graph can limit expressivity due to the fixed receptive field and slows down inference with sparse graph operations. In this work, we investigate whether pure, unmodified Transformers trained directly on Cartesian coordinatesx2013without predefined graphs or physical priorsx2013can approximate molecular energies and forces. As a starting point for our analysis, we demonstrate how to train a Transformer to competitive energy and force mean absolute errors under a matched training compute budget, relative to a state-of-the-art equivariant GNN on the OMol25 dataset. We discover that the Transformer learns physically consistent patternsx2013such as attention weights that decay inversely with interatomic distancex2013and flexibly adapts them across different molecular environments due to the absence of hard-coded biases. The use of a standard Transformer also unlocks predictable improvements with respect to scaling training resources, consistent with empirical scaling laws observed in other domains. Our results demonstrate that many favorable properties of GNNs can emerge adaptively in Transformers, challenging the necessity of hard-coded graph inductive biases and pointing toward standardized, scalable architectures for molecular modeling.

Les Transformers découvrent la structure moléculaire sans a priori sur les graphes

Transformers Discover Molecular Structure Without Graph Priors

papers.abstract

Support