Les Transformers convergent vers des noyaux algorithmiques invariants

Résumé

Les grands modèles de langage présentent des capacités sophistiquées, mais comprendre leur fonctionnement interne demeure un défi fondamental. Un obstacle majeur réside dans le fait que l'entraînement sélectionne des comportements, non des circuits, si bien que de nombreuses configurations de poids peuvent implémenter la même fonction. Quelles structures internes reflètent le calcul, et lesquelles sont des artefacts d'un entraînement particulier ? Ce travail extrait des cœurs algorithmiques : des sous-espaces compacts nécessaires et suffisants à la réalisation d'une tâche. Des transformers entraînés indépendamment apprennent des poids différents mais convergent vers les mêmes cœurs. Les transformers à chaîne de Markov incorporent des cœurs 3D dans des sous-espaces quasi orthogonaux tout en retrouvant des spectres de transition identiques. Les transformers pour l'addition modulaire découvrent des opérateurs cycliques compacts au "grokking" qui se dilatent ensuite, produisant un modèle prédictif de la transition mémorisation-généralisation. Les modèles de langage GPT-2 régissent l'accord sujet-verbe via un axe unique qui, lorsqu'il est inversé, inverse le nombre grammatical pendant la génération, et ce à différentes échelles. Ces résultats révèlent des invariants de faible dimension qui persistent entre différents entraînements et échelles, suggérant que les calculs des transformers s'organisent autour de structures algorithmiques compactes et partagées. L'interprétabilité mécaniste pourrait bénéficier de la recherche de tels invariants – l'essence computationnelle – plutôt que des détails spécifiques à l'implémentation.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Les Transformers convergent vers des noyaux algorithmiques invariants

Transformers converge to invariant algorithmic cores

Résumé

Support