L'Effet Hydre : Autoréparation émergente dans les calculs des modèles de langage
The Hydra Effect: Emergent Self-repair in Language Model Computations
July 28, 2023
Auteurs: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI
Résumé
Nous étudions la structure interne des calculs des modèles de langage en utilisant une analyse causale et démontrons deux motifs : (1) une forme de calcul adaptatif où les ablations d'une couche d'attention d'un modèle de langage entraînent la compensation par une autre couche (que nous nommons l'effet Hydre) et (2) une fonction de contrebalancement des couches MLP tardives qui agissent pour réguler à la baisse le token de maximum de vraisemblance. Nos études d'ablation montrent que les couches des modèles de langage sont généralement relativement faiblement couplées (les ablations d'une couche n'affectent qu'un petit nombre de couches en aval). Étonnamment, ces effets se produisent même dans les modèles de langage entraînés sans aucune forme de dropout. Nous analysons ces effets dans le contexte de la récupération de faits et considérons leurs implications pour l'attribution au niveau des circuits dans les modèles de langage.
English
We investigate the internal structure of language model computations using
causal analysis and demonstrate two motifs: (1) a form of adaptive computation
where ablations of one attention layer of a language model cause another layer
to compensate (which we term the Hydra effect) and (2) a counterbalancing
function of late MLP layers that act to downregulate the maximum-likelihood
token. Our ablation studies demonstrate that language model layers are
typically relatively loosely coupled (ablations to one layer only affect a
small number of downstream layers). Surprisingly, these effects occur even in
language models trained without any form of dropout. We analyse these effects
in the context of factual recall and consider their implications for
circuit-level attribution in language models.