ChatPaper.aiChatPaper

Transformers Descobrem Estrutura Molecular Sem Pré-conhecimentos de Grafos

Transformers Discover Molecular Structure Without Graph Priors

October 2, 2025
Autores: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI

Resumo

Redes Neurais em Grafos (GNNs) são a arquitetura dominante para aprendizado de máquina molecular, especialmente para previsão de propriedades moleculares e potenciais interatômicos de aprendizado de máquina (MLIPs). As GNNs realizam a passagem de mensagens em grafos predefinidos, frequentemente induzidos por um raio de corte fixo ou um esquema de k-vizinhos mais próximos. Embora esse design esteja alinhado com a localidade presente em muitas tarefas moleculares, um grafo codificado de forma rígida pode limitar a expressividade devido ao campo receptivo fixo e retardar a inferência com operações esparsas em grafos. Neste trabalho, investigamos se Transformers puros e não modificados, treinados diretamente em coordenadas cartesianas—sem grafos predefinidos ou prioridades físicas—podem aproximar energias e forças moleculares. Como ponto de partida para nossa análise, demonstramos como treinar um Transformer para alcançar erros absolutos médios competitivos em energia e força sob um orçamento de treinamento computacional equivalente, em comparação com uma GNN equivariante de última geração no conjunto de dados OMol25. Descobrimos que o Transformer aprende padrões fisicamente consistentes—como pesos de atenção que decaem inversamente com a distância interatômica—e os adapta de forma flexível em diferentes ambientes moleculares devido à ausência de vieses codificados de forma rígida. O uso de um Transformer padrão também desbloqueia melhorias previsíveis em relação ao dimensionamento de recursos de treinamento, consistentes com as leis de escalonamento empírico observadas em outros domínios. Nossos resultados demonstram que muitas propriedades favoráveis das GNNs podem emergir de forma adaptativa em Transformers, desafiando a necessidade de vieses indutivos de grafos codificados de forma rígida e apontando para arquiteturas padronizadas e escaláveis para modelagem molecular.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular machine learning, particularly for molecular property prediction and machine learning interatomic potentials (MLIPs). GNNs perform message passing on predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor scheme. While this design aligns with the locality present in many molecular tasks, a hard-coded graph can limit expressivity due to the fixed receptive field and slows down inference with sparse graph operations. In this work, we investigate whether pure, unmodified Transformers trained directly on Cartesian coordinatesx2013without predefined graphs or physical priorsx2013can approximate molecular energies and forces. As a starting point for our analysis, we demonstrate how to train a Transformer to competitive energy and force mean absolute errors under a matched training compute budget, relative to a state-of-the-art equivariant GNN on the OMol25 dataset. We discover that the Transformer learns physically consistent patternsx2013such as attention weights that decay inversely with interatomic distancex2013and flexibly adapts them across different molecular environments due to the absence of hard-coded biases. The use of a standard Transformer also unlocks predictable improvements with respect to scaling training resources, consistent with empirical scaling laws observed in other domains. Our results demonstrate that many favorable properties of GNNs can emerge adaptively in Transformers, challenging the necessity of hard-coded graph inductive biases and pointing toward standardized, scalable architectures for molecular modeling.
PDF72October 3, 2025