Когда трансформеры осваивают эвристики для анализа связности графов?
When Do Transformers Learn Heuristics for Graph Connectivity?
October 22, 2025
Авторы: Qilin Ye, Deqing Fu, Robin Jia, Vatsal Sharan
cs.AI
Аннотация
Трансформеры часто не способны изучать обобщаемые алгоритмы, вместо этого полагаясь на хрупкие эвристики. Используя связность графов в качестве тестовой задачи, мы объясняем это явление как теоретически, так и эмпирически. Мы рассматриваем упрощённую архитектуру трансформера — разъединённый трансформер — и доказываем, что модель с L слоями способна решать задачи для графов с диаметром вплоть до 3^L, реализуя алгоритм, эквивалентный вычислению степеней матрицы смежности. Мы анализируем динамику обучения и показываем, что выученная стратегия зависит от того, находятся ли большинство обучающих примеров в пределах этой ёмкости модели. Графы, находящиеся в пределах ёмкости (диаметр ≤ 3^L), способствуют изучению корректного алгоритмического решения, тогда как графы, выходящие за пределы ёмкости, приводят к изучению простой эвристики, основанной на степенях вершин. Наконец, мы эмпирически демонстрируем, что ограничение обучающих данных в пределах ёмкости модели приводит к тому, что как стандартные, так и разъединённые трансформеры изучают точный алгоритм вместо эвристики, основанной на степенях вершин.
English
Transformers often fail to learn generalizable algorithms, instead relying on
brittle heuristics. Using graph connectivity as a testbed, we explain this
phenomenon both theoretically and empirically. We consider a simplified
Transformer architecture, the disentangled Transformer, and prove that an
L-layer model has capacity to solve for graphs with diameters up to exactly
3^L, implementing an algorithm equivalent to computing powers of the
adjacency matrix. We analyze the training-dynamics, and show that the learned
strategy hinges on whether most training instances are within this model
capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a
correct algorithmic solution while beyond-capacity graphs drive the learning of
a simple heuristic based on node degrees. Finally, we empirically demonstrate
that restricting training data within a model's capacity leads to both standard
and disentangled transformers learning the exact algorithm rather than the
degree-based heuristic.