Transformers Descobrem Estrutura Molecular Sem Pré-conhecimentos de Grafos
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
Autores: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
Resumo
Redes Neurais em Grafos (GNNs) são a arquitetura dominante para aprendizado de máquina molecular, especialmente para previsão de propriedades moleculares e potenciais interatômicos de aprendizado de máquina (MLIPs). As GNNs realizam a passagem de mensagens em grafos predefinidos, frequentemente induzidos por um raio de corte fixo ou um esquema de k-vizinhos mais próximos. Embora esse design esteja alinhado com a localidade presente em muitas tarefas moleculares, um grafo codificado de forma rígida pode limitar a expressividade devido ao campo receptivo fixo e retardar a inferência com operações esparsas em grafos. Neste trabalho, investigamos se Transformers puros e não modificados, treinados diretamente em coordenadas cartesianas—sem grafos predefinidos ou prioridades físicas—podem aproximar energias e forças moleculares. Como ponto de partida para nossa análise, demonstramos como treinar um Transformer para alcançar erros absolutos médios competitivos em energia e força sob um orçamento de treinamento computacional equivalente, em comparação com uma GNN equivariante de última geração no conjunto de dados OMol25. Descobrimos que o Transformer aprende padrões fisicamente consistentes—como pesos de atenção que decaem inversamente com a distância interatômica—e os adapta de forma flexível em diferentes ambientes moleculares devido à ausência de vieses codificados de forma rígida. O uso de um Transformer padrão também desbloqueia melhorias previsíveis em relação ao dimensionamento de recursos de treinamento, consistentes com as leis de escalonamento empírico observadas em outros domínios. Nossos resultados demonstram que muitas propriedades favoráveis das GNNs podem emergir de forma adaptativa em Transformers, desafiando a necessidade de vieses indutivos de grafos codificados de forma rígida e apontando para arquiteturas padronizadas e escaláveis para modelagem molecular.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.