Warum können Transformer keine Multiplikation lernen? Reverse-Engineering deckt Fallstricke bei langreichweitigen Abhängigkeiten auf
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
September 30, 2025
papers.authors: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee
cs.AI
papers.abstract
Sprachmodelle werden zunehmend leistungsfähiger, scheitern jedoch immer noch an einer scheinbar einfachen Aufgabe: der Multiplikation mehrstelliger Zahlen. In dieser Arbeit untersuchen wir, warum dies der Fall ist, indem wir ein Modell reverse-engineeren, das Multiplikation erfolgreich über einen impliziten Gedankenkettenprozess lernt, und berichten drei Erkenntnisse: (1) Hinweise auf langreichweitige Strukturen: Logit-Zuordnungen und lineare Sonden zeigen, dass das Modell die notwendigen langreichweitigen Abhängigkeiten für die Multiplikation mehrstelliger Zahlen kodiert. (2) Mechanismus: Das Modell kodiert langreichweitige Abhängigkeiten durch die Verwendung von Aufmerksamkeit, um einen gerichteten azyklischen Graphen zu konstruieren, der paarweise Teilprodukte „zwischenspeichert“ und „abruft“. (3) Geometrie: Das Modell implementiert Teilprodukte in Aufmerksamkeitsköpfen durch die Bildung von Minkowski-Summen zwischen Ziffernpaaren, und Ziffern werden mithilfe einer Fourier-Basis dargestellt, beides intuitive und effiziente Repräsentationen, die dem Standard-Fine-Tuning-Modell fehlen. Mit diesen Erkenntnissen betrachten wir die Lern dynamik des Standard-Fine-Tunings erneut und stellen fest, dass das Modell in ein lokales Optimum konvergiert, dem die erforderlichen langreichweitigen Abhängigkeiten fehlen. Wir validieren dieses Verständnis weiter, indem wir einen zusätzlichen Verlust einführen, der die „laufende Summe“ über eine lineare Regressionssonde vorhersagt, was eine induktive Verzerrung bietet, die es dem Modell ermöglicht, die Multiplikation mehrstelliger Zahlen erfolgreich zu erlernen. Zusammenfassend decken wir durch das Reverse-Engineering der Mechanismen eines impliziten Gedankenkettenmodells eine Fallgrube für das Erlernen langreichweitiger Abhängigkeiten in Transformern auf und liefern ein Beispiel dafür, wie die richtige induktive Verzerrung dieses Problem lösen kann.
English
Language models are increasingly capable, yet still fail at a seemingly
simple task of multi-digit multiplication. In this work, we study why, by
reverse-engineering a model that successfully learns multiplication via
implicit chain-of-thought, and report three findings: (1) Evidence of
long-range structure: Logit attributions and linear probes indicate that the
model encodes the necessary long-range dependencies for multi-digit
multiplication. (2) Mechanism: the model encodes long-range dependencies using
attention to construct a directed acyclic graph to ``cache'' and ``retrieve''
pairwise partial products. (3) Geometry: the model implements partial products
in attention heads by forming Minkowski sums between pairs of digits, and
digits are represented using a Fourier basis, both of which are intuitive and
efficient representations that the standard fine-tuning model lacks. With these
insights, we revisit the learning dynamics of standard fine-tuning and find
that the model converges to a local optimum that lacks the required long-range
dependencies. We further validate this understanding by introducing an
auxiliary loss that predicts the ``running sum'' via a linear regression probe,
which provides an inductive bias that enables the model to successfully learn
multi-digit multiplication. In summary, by reverse-engineering the mechanisms
of an implicit chain-of-thought model we uncover a pitfall for learning
long-range dependencies in Transformers and provide an example of how the
correct inductive bias can address this issue.