Pourquoi les Transformers ne peuvent-ils pas apprendre la multiplication ? Un rétro-ingénierie révèle les pièges des dépendances à longue portée

papers.abstract

Les modèles de langage deviennent de plus en plus performants, mais échouent encore à une tâche apparemment simple : la multiplication de nombres à plusieurs chiffres. Dans ce travail, nous étudions pourquoi, en rétro-ingéniérant un modèle qui apprend avec succès la multiplication via une chaîne de pensée implicite, et rapportons trois découvertes : (1) Preuve de structure à long terme : les attributions de logits et les sondes linéaires indiquent que le modèle encode les dépendances à long terme nécessaires pour la multiplication multi-chiffres. (2) Mécanisme : le modèle encode les dépendances à long terme en utilisant l'attention pour construire un graphe acyclique dirigé afin de « mettre en cache » et de « récupérer » les produits partiels par paires. (3) Géométrie : le modèle implémente les produits partiels dans les têtes d'attention en formant des sommes de Minkowski entre des paires de chiffres, et les chiffres sont représentés à l'aide d'une base de Fourier, deux représentations intuitives et efficaces que le modèle standard de fine-tuning ne possède pas. Avec ces insights, nous revisitons la dynamique d'apprentissage du fine-tuning standard et constatons que le modèle converge vers un optimum local qui manque des dépendances à long terme requises. Nous validons davantage cette compréhension en introduisant une perte auxiliaire qui prédit la « somme courante » via une sonde de régression linéaire, fournissant un biais inductif qui permet au modèle d'apprendre avec succès la multiplication multi-chiffres. En résumé, en rétro-ingéniérant les mécanismes d'un modèle à chaîne de pensée implicite, nous mettons en lumière un écueil pour l'apprentissage des dépendances à long terme dans les Transformers et fournissons un exemple de la manière dont le bon biais inductif peut résoudre ce problème.

English

Language models are increasingly capable, yet still fail at a seemingly simple task of multi-digit multiplication. In this work, we study why, by reverse-engineering a model that successfully learns multiplication via implicit chain-of-thought, and report three findings: (1) Evidence of long-range structure: Logit attributions and linear probes indicate that the model encodes the necessary long-range dependencies for multi-digit multiplication. (2) Mechanism: the model encodes long-range dependencies using attention to construct a directed acyclic graph to ``cache'' and ``retrieve'' pairwise partial products. (3) Geometry: the model implements partial products in attention heads by forming Minkowski sums between pairs of digits, and digits are represented using a Fourier basis, both of which are intuitive and efficient representations that the standard fine-tuning model lacks. With these insights, we revisit the learning dynamics of standard fine-tuning and find that the model converges to a local optimum that lacks the required long-range dependencies. We further validate this understanding by introducing an auxiliary loss that predicts the ``running sum'' via a linear regression probe, which provides an inductive bias that enables the model to successfully learn multi-digit multiplication. In summary, by reverse-engineering the mechanisms of an implicit chain-of-thought model we uncover a pitfall for learning long-range dependencies in Transformers and provide an example of how the correct inductive bias can address this issue.

Pourquoi les Transformers ne peuvent-ils pas apprendre la multiplication ? Un rétro-ingénierie révèle les pièges des dépendances à longue portée

Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

papers.abstract

Support