Почему трансформеры не могут выучить умножение? Обратный инжиниринг выявляет проблемы с длинными зависимостями
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
September 30, 2025
Авторы: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee
cs.AI
Аннотация
Языковые модели становятся всё более мощными, но всё ещё не справляются с, казалось бы, простой задачей умножения многозначных чисел. В данной работе мы исследуем причины этого, анализируя модель, которая успешно обучается умножению через неявную цепочку рассуждений, и представляем три ключевых вывода: (1) Доказательства наличия долгосрочной структуры: анализ вклада логитов и линейные пробы показывают, что модель кодирует необходимые долгосрочные зависимости для умножения многозначных чисел. (2) Механизм: модель кодирует долгосрочные зависимости, используя механизм внимания для построения направленного ациклического графа, чтобы «кэшировать» и «извлекать» попарные частичные произведения. (3) Геометрия: модель реализует частичные произведения в головах внимания, формируя суммы Минковского между парами цифр, причём цифры представлены с использованием базиса Фурье — оба подхода являются интуитивными и эффективными представлениями, которых не хватает стандартной модели с тонкой настройкой. С учётом этих инсайтов мы пересматриваем динамику обучения стандартной тонкой настройки и обнаруживаем, что модель сходится к локальному оптимуму, лишённому необходимых долгосрочных зависимостей. Мы дополнительно подтверждаем это понимание, вводя вспомогательную функцию потерь, которая предсказывает «накапливающуюся сумму» через линейную регрессионную пробу, что создаёт индуктивное смещение, позволяющее модели успешно обучаться умножению многозначных чисел. В итоге, анализируя механизмы модели с неявной цепочкой рассуждений, мы выявляем проблему обучения долгосрочных зависимостей в трансформерах и демонстрируем, как правильное индуктивное смещение может решить эту задачу.
English
Language models are increasingly capable, yet still fail at a seemingly
simple task of multi-digit multiplication. In this work, we study why, by
reverse-engineering a model that successfully learns multiplication via
implicit chain-of-thought, and report three findings: (1) Evidence of
long-range structure: Logit attributions and linear probes indicate that the
model encodes the necessary long-range dependencies for multi-digit
multiplication. (2) Mechanism: the model encodes long-range dependencies using
attention to construct a directed acyclic graph to ``cache'' and ``retrieve''
pairwise partial products. (3) Geometry: the model implements partial products
in attention heads by forming Minkowski sums between pairs of digits, and
digits are represented using a Fourier basis, both of which are intuitive and
efficient representations that the standard fine-tuning model lacks. With these
insights, we revisit the learning dynamics of standard fine-tuning and find
that the model converges to a local optimum that lacks the required long-range
dependencies. We further validate this understanding by introducing an
auxiliary loss that predicts the ``running sum'' via a linear regression probe,
which provides an inductive bias that enables the model to successfully learn
multi-digit multiplication. In summary, by reverse-engineering the mechanisms
of an implicit chain-of-thought model we uncover a pitfall for learning
long-range dependencies in Transformers and provide an example of how the
correct inductive bias can address this issue.