Transformer konvergieren zu invarianten algorithmischen Kernen

Zusammenfassung

Große Sprachmodelle weisen ausgefeilte Fähigkeiten auf, doch das Verständnis ihrer internen Funktionsweise bleibt eine zentrale Herausforderung. Ein grundlegendes Hindernis ist, dass das Training auf Verhalten und nicht auf Schaltkreise selektiert; somit können viele Gewichtskonfigurationen dieselbe Funktion implementieren. Welche internen Strukturen spiegeln die Berechnung wider und welche sind Zufälligkeiten eines bestimmten Trainingslaufs? Diese Arbeit extrahiert algorithmische Kerne: kompakte Teilräume, die für die Aufgabenbewältigung notwendig und hinreichend sind. Unabhängig voneinander trainierte Transformer lernen unterschiedliche Gewichte, konvergieren aber zu denselben Kernen. Markov-Ketten-Transformer betten 3D-Kerne in nahezu orthogonalen Teilräumen ein, stellen jedoch identische Übergangsspektren wieder her. Modular-Arithmetik-Transformer entdecken bei "Grokking" kompakte zyklische Operatoren, die sich später ausdehnen, was ein prädiktives Modell des Übergangs von Memorisierung zu Generalisierung liefert. GPT-2-Sprachmodelle steuern die Subjekt-Verb-Kongruenz über eine einzelne Achse, deren Umkehrung die grammatikalische Numerus throughout der Generierung über alle Skalen hinweg invertiert. Diese Ergebnisse offenbaren niedrigdimensionale Invarianten, die über Trainingsläufe und Skalen hinweg bestehen bleiben, was nahelegt, dass Transformer-Berechnungen um kompakte, gemeinsame algorithmische Strukturen organisiert sind. Die mechanistische Interpretierbarkeit könnte davon profitieren, solche Invarianten – die rechnerische Essenz – anzuvisieren, anstatt implementierungsspezifische Details.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Transformer konvergieren zu invarianten algorithmischen Kernen

Transformers converge to invariant algorithmic cores

Zusammenfassung

Support