Por que os Transformers Não Conseguem Aprender Multiplicação? Engenharia Reversa Revela Armadilhas de Dependências de Longo Alcance
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
September 30, 2025
Autores: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee
cs.AI
Resumo
Os modelos de linguagem estão se tornando cada vez mais capazes, mas ainda falham em uma tarefa aparentemente simples: a multiplicação de múltiplos dígitos. Neste trabalho, investigamos o porquê, ao fazer uma engenharia reversa de um modelo que aprende com sucesso a multiplicação por meio de uma cadeia de pensamento implícita, e relatamos três descobertas: (1) Evidência de estrutura de longo alcance: Atribuições de logits e sondagens lineares indicam que o modelo codifica as dependências de longo alcance necessárias para a multiplicação de múltiplos dígitos. (2) Mecanismo: o modelo codifica dependências de longo alcance usando atenção para construir um grafo acíclico direcionado para "armazenar em cache" e "recuperar" produtos parciais aos pares. (3) Geometria: o modelo implementa produtos parciais em cabeças de atenção formando somas de Minkowski entre pares de dígitos, e os dígitos são representados usando uma base de Fourier, ambas representações intuitivas e eficientes que o modelo de ajuste fino padrão não possui. Com esses insights, revisitamos a dinâmica de aprendizado do ajuste fino padrão e descobrimos que o modelo converge para um ótimo local que carece das dependências de longo alcance necessárias. Validamos ainda mais essa compreensão ao introduzir uma perda auxiliar que prevê a "soma acumulada" por meio de uma sonda de regressão linear, o que fornece um viés indutivo que permite ao modelo aprender com sucesso a multiplicação de múltiplos dígitos. Em resumo, ao fazer a engenharia reversa dos mecanismos de um modelo de cadeia de pensamento implícita, revelamos uma armadilha para o aprendizado de dependências de longo alcance em Transformers e fornecemos um exemplo de como o viés indutivo correto pode resolver esse problema.
English
Language models are increasingly capable, yet still fail at a seemingly
simple task of multi-digit multiplication. In this work, we study why, by
reverse-engineering a model that successfully learns multiplication via
implicit chain-of-thought, and report three findings: (1) Evidence of
long-range structure: Logit attributions and linear probes indicate that the
model encodes the necessary long-range dependencies for multi-digit
multiplication. (2) Mechanism: the model encodes long-range dependencies using
attention to construct a directed acyclic graph to ``cache'' and ``retrieve''
pairwise partial products. (3) Geometry: the model implements partial products
in attention heads by forming Minkowski sums between pairs of digits, and
digits are represented using a Fourier basis, both of which are intuitive and
efficient representations that the standard fine-tuning model lacks. With these
insights, we revisit the learning dynamics of standard fine-tuning and find
that the model converges to a local optimum that lacks the required long-range
dependencies. We further validate this understanding by introducing an
auxiliary loss that predicts the ``running sum'' via a linear regression probe,
which provides an inductive bias that enables the model to successfully learn
multi-digit multiplication. In summary, by reverse-engineering the mechanisms
of an implicit chain-of-thought model we uncover a pitfall for learning
long-range dependencies in Transformers and provide an example of how the
correct inductive bias can address this issue.