Pourquoi les Transformers ne peuvent-ils pas apprendre la multiplication ? Un rétro-ingénierie révèle les pièges des dépendances à longue portée
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
September 30, 2025
papers.authors: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee
cs.AI
papers.abstract
Les modèles de langage deviennent de plus en plus performants, mais échouent encore à une tâche apparemment simple : la multiplication de nombres à plusieurs chiffres. Dans ce travail, nous étudions pourquoi, en rétro-ingéniérant un modèle qui apprend avec succès la multiplication via une chaîne de pensée implicite, et rapportons trois découvertes : (1) Preuve de structure à long terme : les attributions de logits et les sondes linéaires indiquent que le modèle encode les dépendances à long terme nécessaires pour la multiplication multi-chiffres. (2) Mécanisme : le modèle encode les dépendances à long terme en utilisant l'attention pour construire un graphe acyclique dirigé afin de « mettre en cache » et de « récupérer » les produits partiels par paires. (3) Géométrie : le modèle implémente les produits partiels dans les têtes d'attention en formant des sommes de Minkowski entre des paires de chiffres, et les chiffres sont représentés à l'aide d'une base de Fourier, deux représentations intuitives et efficaces que le modèle standard de fine-tuning ne possède pas. Avec ces insights, nous revisitons la dynamique d'apprentissage du fine-tuning standard et constatons que le modèle converge vers un optimum local qui manque des dépendances à long terme requises. Nous validons davantage cette compréhension en introduisant une perte auxiliaire qui prédit la « somme courante » via une sonde de régression linéaire, fournissant un biais inductif qui permet au modèle d'apprendre avec succès la multiplication multi-chiffres. En résumé, en rétro-ingéniérant les mécanismes d'un modèle à chaîne de pensée implicite, nous mettons en lumière un écueil pour l'apprentissage des dépendances à long terme dans les Transformers et fournissons un exemple de la manière dont le bon biais inductif peut résoudre ce problème.
English
Language models are increasingly capable, yet still fail at a seemingly
simple task of multi-digit multiplication. In this work, we study why, by
reverse-engineering a model that successfully learns multiplication via
implicit chain-of-thought, and report three findings: (1) Evidence of
long-range structure: Logit attributions and linear probes indicate that the
model encodes the necessary long-range dependencies for multi-digit
multiplication. (2) Mechanism: the model encodes long-range dependencies using
attention to construct a directed acyclic graph to ``cache'' and ``retrieve''
pairwise partial products. (3) Geometry: the model implements partial products
in attention heads by forming Minkowski sums between pairs of digits, and
digits are represented using a Fourier basis, both of which are intuitive and
efficient representations that the standard fine-tuning model lacks. With these
insights, we revisit the learning dynamics of standard fine-tuning and find
that the model converges to a local optimum that lacks the required long-range
dependencies. We further validate this understanding by introducing an
auxiliary loss that predicts the ``running sum'' via a linear regression probe,
which provides an inductive bias that enables the model to successfully learn
multi-digit multiplication. In summary, by reverse-engineering the mechanisms
of an implicit chain-of-thought model we uncover a pitfall for learning
long-range dependencies in Transformers and provide an example of how the
correct inductive bias can address this issue.