Perché i Transformer Non Riescono a Imparare la Moltiplicazione? L'Ingegneria Inversa Rivela le Insidie delle Dipendenze a Lungo Raggio
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
September 30, 2025
Autori: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee
cs.AI
Abstract
I modelli linguistici stanno diventando sempre più capaci, ma falliscono ancora in un compito apparentemente semplice come la moltiplicazione di numeri a più cifre. In questo lavoro, studiamo il perché, analizzando retrospettivamente un modello che impara con successo la moltiplicazione attraverso un ragionamento implicito a catena di pensiero, e riportiamo tre risultati: (1) Evidenza di struttura a lungo raggio: le attribuzioni dei logit e le sonde lineari indicano che il modello codifica le necessarie dipendenze a lungo raggio per la moltiplicazione di numeri a più cifre. (2) Meccanismo: il modello codifica le dipendenze a lungo raggio utilizzando l'attenzione per costruire un grafo aciclico diretto per "memorizzare" e "recuperare" i prodotti parziali a coppie. (3) Geometria: il modello implementa i prodotti parziali nelle teste di attenzione formando somme di Minkowski tra coppie di cifre, e le cifre sono rappresentate utilizzando una base di Fourier, entrambe rappresentazioni intuitive ed efficienti che mancano al modello standard di fine-tuning. Con queste intuizioni, esaminiamo nuovamente la dinamica di apprendimento del fine-tuning standard e scopriamo che il modello converge a un ottimo locale che manca delle necessarie dipendenze a lungo raggio. Validiamo ulteriormente questa comprensione introducendo una perdita ausiliaria che predice la "somma corrente" attraverso una sonda di regressione lineare, che fornisce un bias induttivo che consente al modello di apprendere con successo la moltiplicazione di numeri a più cifre. In sintesi, analizzando retrospettivamente i meccanismi di un modello a catena di pensiero implicita, scopriamo una trappola per l'apprendimento delle dipendenze a lungo raggio nei Transformer e forniamo un esempio di come il corretto bias induttivo possa risolvere questo problema.
English
Language models are increasingly capable, yet still fail at a seemingly
simple task of multi-digit multiplication. In this work, we study why, by
reverse-engineering a model that successfully learns multiplication via
implicit chain-of-thought, and report three findings: (1) Evidence of
long-range structure: Logit attributions and linear probes indicate that the
model encodes the necessary long-range dependencies for multi-digit
multiplication. (2) Mechanism: the model encodes long-range dependencies using
attention to construct a directed acyclic graph to ``cache'' and ``retrieve''
pairwise partial products. (3) Geometry: the model implements partial products
in attention heads by forming Minkowski sums between pairs of digits, and
digits are represented using a Fourier basis, both of which are intuitive and
efficient representations that the standard fine-tuning model lacks. With these
insights, we revisit the learning dynamics of standard fine-tuning and find
that the model converges to a local optimum that lacks the required long-range
dependencies. We further validate this understanding by introducing an
auxiliary loss that predicts the ``running sum'' via a linear regression probe,
which provides an inductive bias that enables the model to successfully learn
multi-digit multiplication. In summary, by reverse-engineering the mechanisms
of an implicit chain-of-thought model we uncover a pitfall for learning
long-range dependencies in Transformers and provide an example of how the
correct inductive bias can address this issue.