I trasformatori convergono verso nuclei algoritmici invarianti

Abstract

I modelli linguistici di grandi dimensioni mostrano capacità sofisticate, ma comprendere come funzionino internamente rimane una sfida centrale. Un ostacolo fondamentale è che l'addestramento seleziona il comportamento, non i circuiti, quindi molte configurazioni dei pesi possono implementare la stessa funzione. Quali strutture interne riflettono il calcolo e quali sono accidenti di una specifica esecuzione di addestramento? Questo lavoro estrae nuclei algoritmici: sottospazi compatti necessari e sufficienti per le prestazioni del compito. Trasformatori addestrati in modo indipendente apprendono pesi diversi ma convergono verso gli stessi nuclei. I trasformatori a catena di Markov incorporano nuclei 3D in sottospazi quasi ortogonali, eppure recuperano spettri di transizione identici. I trasformatori per l'addizione modulare scoprono operatori ciclici compatti al momento del "grokking" che successivamente si espandono, fornendo un modello predittivo della transizione dalla memorizzazione alla generalizzazione. I modelli linguistici GPT-2 governano la concordanza soggetto-verbo attraverso un singolo asse che, quando invertito, capovolge il numero grammaticale durante la generazione attraverso le diverse scale. Questi risultati rivelano invarianti a bassa dimensionalità che persistono attraverso diverse esecuzioni di addestramento e scale, suggerendo che i calcoli dei trasformatori sono organizzati attorno a strutture algoritmiche compatte e condivise. L'interpretabilità meccanicistica potrebbe trarre vantaggio dal prendere di mira tali invarianti – l'essenza computazionale – piuttosto che i dettagli specifici dell'implementazione.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

I trasformatori convergono verso nuclei algoritmici invarianti

Transformers converge to invariant algorithmic cores

Abstract

Support