Трансформеры обнаруживают молекулярную структуру без априорных знаний о графах
Transformers Discover Molecular Structure Without Graph Priors
October 2, 2025
Авторы: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan
cs.AI
Аннотация
Графовые нейронные сети (GNN) являются доминирующей архитектурой для молекулярного машинного обучения, особенно для предсказания молекулярных свойств и машинного обучения межатомных потенциалов (MLIP). GNN выполняют передачу сообщений на предопределенных графах, часто созданных с использованием фиксированного радиуса отсечения или схемы k ближайших соседей. Хотя такой подход соответствует локальности, присутствующей во многих молекулярных задачах, жестко заданный граф может ограничивать выразительность из-за фиксированного рецептивного поля и замедлять вывод из-за разреженных операций с графами. В данной работе мы исследуем, могут ли чистые, неизмененные трансформеры, обученные непосредственно на декартовых координатах — без предопределенных графов или физических априорных знаний — аппроксимировать молекулярные энергии и силы. В качестве отправной точки нашего анализа мы показываем, как обучить трансформер для достижения конкурентоспособных средних абсолютных ошибок по энергии и силам при сопоставимом бюджете вычислительных ресурсов для обучения, по сравнению с современной эквивариантной GNN на наборе данных OMol25. Мы обнаруживаем, что трансформер изучает физически согласованные паттерны — например, веса внимания, которые убывают обратно пропорционально межатомному расстоянию — и гибко адаптирует их в различных молекулярных средах благодаря отсутствию жестко заданных предубеждений. Использование стандартного трансформера также позволяет предсказуемо улучшать результаты при масштабировании ресурсов для обучения, что согласуется с эмпирическими законами масштабирования, наблюдаемыми в других областях. Наши результаты демонстрируют, что многие благоприятные свойства GNN могут адаптивно проявляться в трансформерах, ставя под сомнение необходимость жестко заданных индуктивных предубеждений графов и указывая на стандартизированные, масштабируемые архитектуры для молекулярного моделирования.
English
Graph Neural Networks (GNNs) are the dominant architecture for molecular
machine learning, particularly for molecular property prediction and machine
learning interatomic potentials (MLIPs). GNNs perform message passing on
predefined graphs often induced by a fixed radius cutoff or k-nearest neighbor
scheme. While this design aligns with the locality present in many molecular
tasks, a hard-coded graph can limit expressivity due to the fixed receptive
field and slows down inference with sparse graph operations. In this work, we
investigate whether pure, unmodified Transformers trained directly on Cartesian
coordinatesx2013without predefined graphs or physical
priorsx2013can approximate molecular energies and forces. As a
starting point for our analysis, we demonstrate how to train a Transformer to
competitive energy and force mean absolute errors under a matched training
compute budget, relative to a state-of-the-art equivariant GNN on the OMol25
dataset. We discover that the Transformer learns physically consistent
patternsx2013such as attention weights that decay inversely with
interatomic distancex2013and flexibly adapts them across different
molecular environments due to the absence of hard-coded biases. The use of a
standard Transformer also unlocks predictable improvements with respect to
scaling training resources, consistent with empirical scaling laws observed in
other domains. Our results demonstrate that many favorable properties of GNNs
can emerge adaptively in Transformers, challenging the necessity of hard-coded
graph inductive biases and pointing toward standardized, scalable architectures
for molecular modeling.