Когда трансформеры осваивают эвристики для анализа связности графов?

Аннотация

Трансформеры часто не способны изучать обобщаемые алгоритмы, вместо этого полагаясь на хрупкие эвристики. Используя связность графов в качестве тестовой задачи, мы объясняем это явление как теоретически, так и эмпирически. Мы рассматриваем упрощённую архитектуру трансформера — разъединённый трансформер — и доказываем, что модель с L слоями способна решать задачи для графов с диаметром вплоть до 3^L, реализуя алгоритм, эквивалентный вычислению степеней матрицы смежности. Мы анализируем динамику обучения и показываем, что выученная стратегия зависит от того, находятся ли большинство обучающих примеров в пределах этой ёмкости модели. Графы, находящиеся в пределах ёмкости (диаметр ≤ 3^L), способствуют изучению корректного алгоритмического решения, тогда как графы, выходящие за пределы ёмкости, приводят к изучению простой эвристики, основанной на степенях вершин. Наконец, мы эмпирически демонстрируем, что ограничение обучающих данных в пределах ёмкости модели приводит к тому, что как стандартные, так и разъединённые трансформеры изучают точный алгоритм вместо эвристики, основанной на степенях вершин.

English

Transformers often fail to learn generalizable algorithms, instead relying on brittle heuristics. Using graph connectivity as a testbed, we explain this phenomenon both theoretically and empirically. We consider a simplified Transformer architecture, the disentangled Transformer, and prove that an L-layer model has capacity to solve for graphs with diameters up to exactly 3^L, implementing an algorithm equivalent to computing powers of the adjacency matrix. We analyze the training-dynamics, and show that the learned strategy hinges on whether most training instances are within this model capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a correct algorithmic solution while beyond-capacity graphs drive the learning of a simple heuristic based on node degrees. Finally, we empirically demonstrate that restricting training data within a model's capacity leads to both standard and disentangled transformers learning the exact algorithm rather than the degree-based heuristic.

Когда трансформеры осваивают эвристики для анализа связности графов?

When Do Transformers Learn Heuristics for Graph Connectivity?

Аннотация

Support