Transformers convergeren naar invariante algoritmische kernen

Samenvatting

Grote taalmodellen vertonen geavanceerde capaciteiten, maar het begrijpen van hun interne werking blijft een centrale uitdaging. Een fundamenteel obstakel is dat training selecteert op gedrag, niet op schakelingen, waardoor veel gewichtsconfiguraties dezelfde functie kunnen implementeren. Welke interne structuren weerspiegelen de berekening, en welke zijn toevalligheden van een specifieke trainingsrun? Dit werk extraheert algoritmische kernen: compacte deelruimten die noodzakelijk en voldoende zijn voor taakprestatie. Onafhankelijk getrainde transformers leren verschillende gewichten maar convergeren naar dezelfde kernen. Markov-ketting-transformers embedden 3D-kernen in bijna orthogonale deelruimten, maar herstellen identieke overgangsspectra. Modulaire-opteltransformers ontdekken compacte cyclische operatoren bij 'grokking' die later opzwellen, wat resulteert in een voorspellend model van de overgang van memorisatie naar generalisatie. GPT-2-taalmodellen reguleren subject-werkwoordcongruentie via een enkele as die, wanneer omgekeerd, de grammaticale getal door de hele generatie heen omkeert, onafhankelijk van schaal. Deze resultaten onthullen laagdimensionale invarianten die persistent zijn across trainingsruns en schalen, wat suggereert dat transformerberekeningen zijn georganiseerd rond compacte, gedeelde algoritmische structuren. Mechanistische interpreteerbaarheid zou kunnen profiteren van het richten op dergelijke invarianten – de computationele essentie – in plaats van implementatiespecifieke details.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Transformers convergeren naar invariante algoritmische kernen

Transformers converge to invariant algorithmic cores

Samenvatting

Support