Los Transformadores Descubren la Estructura Molecular Sin Conocimientos Previos de Grafos

Resumen

Las Redes Neuronales de Grafos (GNNs) son la arquitectura dominante en el aprendizaje automático molecular, especialmente para la predicción de propiedades moleculares y los potenciales interatómicos basados en aprendizaje automático (MLIPs). Las GNNs realizan el paso de mensajes en grafos predefinidos, a menudo inducidos por un radio de corte fijo o un esquema de k-vecinos más cercanos. Aunque este diseño se alinea con la localidad presente en muchas tareas moleculares, un grafo codificado de manera rígida puede limitar la expresividad debido al campo receptivo fijo y ralentizar la inferencia con operaciones de grafos dispersos. En este trabajo, investigamos si los Transformers puros, sin modificaciones y entrenados directamente en coordenadas cartesianas—sin grafos predefinidos ni conocimientos físicos previos—pueden aproximar energías y fuerzas moleculares. Como punto de partida para nuestro análisis, demostramos cómo entrenar un Transformer para lograr errores absolutos medios competitivos en energía y fuerza bajo un presupuesto de cómputo de entrenamiento equivalente, en comparación con una GNN equivariante de última generación en el conjunto de datos OMol25. Descubrimos que el Transformer aprende patrones físicamente consistentes—como pesos de atención que decaen inversamente con la distancia interatómica—y los adapta de manera flexible en diferentes entornos moleculares debido a la ausencia de sesgos codificados de manera rígida. El uso de un Transformer estándar también permite mejoras predecibles en relación con la escalabilidad de los recursos de entrenamiento, consistentes con las leyes de escalado empírico observadas en otros dominios. Nuestros resultados demuestran que muchas de las propiedades favorables de las GNNs pueden surgir de manera adaptativa en los Transformers, cuestionando la necesidad de sesgos inductivos de grafos codificados de manera rígida y apuntando hacia arquitecturas estandarizadas y escalables para el modelado molecular.

English

Graph Neural Networks (GNNs) are the dominant architecture for molecular machine learning, particularly for molecular property prediction and machine learning interatomic potentials (MLIPs). GNNs perform message passing on predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor scheme. While this design aligns with the locality present in many molecular tasks, a hard-coded graph can limit expressivity due to the fixed receptive field and slows down inference with sparse graph operations. In this work, we investigate whether pure, unmodified Transformers trained directly on Cartesian coordinatesx2013without predefined graphs or physical priorsx2013can approximate molecular energies and forces. As a starting point for our analysis, we demonstrate how to train a Transformer to competitive energy and force mean absolute errors under a matched training compute budget, relative to a state-of-the-art equivariant GNN on the OMol25 dataset. We discover that the Transformer learns physically consistent patternsx2013such as attention weights that decay inversely with interatomic distancex2013and flexibly adapts them across different molecular environments due to the absence of hard-coded biases. The use of a standard Transformer also unlocks predictable improvements with respect to scaling training resources, consistent with empirical scaling laws observed in other domains. Our results demonstrate that many favorable properties of GNNs can emerge adaptively in Transformers, challenging the necessity of hard-coded graph inductive biases and pointing toward standardized, scalable architectures for molecular modeling.

Los Transformadores Descubren la Estructura Molecular Sin Conocimientos Previos de Grafos

Transformers Discover Molecular Structure Without Graph Priors

Resumen

Support