Waarom kunnen Transformers niet vermenigvuldigen leren? Reverse-Engineering onthult valkuilen bij langeafstandsafhankelijkheden

Samenvatting

Taalmodellen worden steeds capabeler, maar falen nog steeds bij een ogenschijnlijk eenvoudige taak als het vermenigvuldigen van meerdere cijfers. In dit werk onderzoeken we waarom, door een model dat succesvol vermenigvuldigen leert via impliciete gedachtegangen te reverse-engineeren, en rapporteren we drie bevindingen: (1) Bewijs van langeafstandsstructuur: Logit-attributies en lineaire probes geven aan dat het model de benodigde langeafstandsafhankelijkheden voor het vermenigvuldigen van meerdere cijfers codeert. (2) Mechanisme: het model codeert langeafstandsafhankelijkheden door middel van aandacht om een gerichte acyclische graaf te construeren om paarswijze deelproducten te "cachen" en "op te halen". (3) Geometrie: het model implementeert deelproducten in aandachtkoppen door Minkowski-sommen te vormen tussen paren cijfers, en cijfers worden gerepresenteerd met behulp van een Fourier-basis, beide intuïtieve en efficiënte representaties die het standaard fine-tuning model mist. Met deze inzichten herzien we de leer dynamiek van standaard fine-tuning en ontdekken we dat het model convergeert naar een lokaal optimum dat de benodigde langeafstandsafhankelijkheden mist. We valideren dit begrip verder door een hulploss in te voeren die de "lopende som" voorspelt via een lineaire regressie-probe, wat een inductieve bias biedt die het model in staat stelt om succesvol het vermenigvuldigen van meerdere cijfers te leren. Samengevat, door de mechanismen van een impliciet gedachtegangenmodel te reverse-engineeren, ontdekken we een valkuil voor het leren van langeafstandsafhankelijkheden in Transformers en bieden we een voorbeeld van hoe de juiste inductieve bias dit probleem kan oplossen.

English

Language models are increasingly capable, yet still fail at a seemingly simple task of multi-digit multiplication. In this work, we study why, by reverse-engineering a model that successfully learns multiplication via implicit chain-of-thought, and report three findings: (1) Evidence of long-range structure: Logit attributions and linear probes indicate that the model encodes the necessary long-range dependencies for multi-digit multiplication. (2) Mechanism: the model encodes long-range dependencies using attention to construct a directed acyclic graph to ``cache'' and ``retrieve'' pairwise partial products. (3) Geometry: the model implements partial products in attention heads by forming Minkowski sums between pairs of digits, and digits are represented using a Fourier basis, both of which are intuitive and efficient representations that the standard fine-tuning model lacks. With these insights, we revisit the learning dynamics of standard fine-tuning and find that the model converges to a local optimum that lacks the required long-range dependencies. We further validate this understanding by introducing an auxiliary loss that predicts the ``running sum'' via a linear regression probe, which provides an inductive bias that enables the model to successfully learn multi-digit multiplication. In summary, by reverse-engineering the mechanisms of an implicit chain-of-thought model we uncover a pitfall for learning long-range dependencies in Transformers and provide an example of how the correct inductive bias can address this issue.

Waarom kunnen Transformers niet vermenigvuldigen leren? Reverse-Engineering onthult valkuilen bij langeafstandsafhankelijkheden

Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

Samenvatting

Support