Los Transformadores Descubren la Estructura Molecular Sin Conocimientos Previos de Grafos
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
Autores: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
Resumen
Las Redes Neuronales de Grafos (GNNs) son la arquitectura dominante en el aprendizaje automático molecular, especialmente para la predicción de propiedades moleculares y los potenciales interatómicos basados en aprendizaje automático (MLIPs). Las GNNs realizan el paso de mensajes en grafos predefinidos, a menudo inducidos por un radio de corte fijo o un esquema de k-vecinos más cercanos. Aunque este diseño se alinea con la localidad presente en muchas tareas moleculares, un grafo codificado de manera rígida puede limitar la expresividad debido al campo receptivo fijo y ralentizar la inferencia con operaciones de grafos dispersos. En este trabajo, investigamos si los Transformers puros, sin modificaciones y entrenados directamente en coordenadas cartesianas—sin grafos predefinidos ni conocimientos físicos previos—pueden aproximar energías y fuerzas moleculares. Como punto de partida para nuestro análisis, demostramos cómo entrenar un Transformer para lograr errores absolutos medios competitivos en energía y fuerza bajo un presupuesto de cómputo de entrenamiento equivalente, en comparación con una GNN equivariante de última generación en el conjunto de datos OMol25. Descubrimos que el Transformer aprende patrones físicamente consistentes—como pesos de atención que decaen inversamente con la distancia interatómica—y los adapta de manera flexible en diferentes entornos moleculares debido a la ausencia de sesgos codificados de manera rígida. El uso de un Transformer estándar también permite mejoras predecibles en relación con la escalabilidad de los recursos de entrenamiento, consistentes con las leyes de escalado empírico observadas en otros dominios. Nuestros resultados demuestran que muchas de las propiedades favorables de las GNNs pueden surgir de manera adaptativa en los Transformers, cuestionando la necesidad de sesgos inductivos de grafos codificados de manera rígida y apuntando hacia arquitecturas estandarizadas y escalables para el modelado molecular.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.