Het Hydra-effect: Emergent zelfherstel in taalmodelberekeningen
The Hydra Effect: Emergent Self-repair in Language Model Computations
July 28, 2023
Auteurs: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI
Samenvatting
We onderzoeken de interne structuur van taalmodelberekeningen met behulp van causale analyse en demonstreren twee motieven: (1) een vorm van adaptieve berekening waarbij ablatie van één aandachtlaag van een taalmodel ervoor zorgt dat een andere laag compenseert (wat we het Hydra-effect noemen) en (2) een tegenwerkende functie van late MLP-lagen die de meest waarschijnlijke token downreguleren. Onze ablatiestudies tonen aan dat de lagen van taalmodellen over het algemeen relatief losjes gekoppeld zijn (ablatie van één laag heeft slechts invloed op een klein aantal downstream-lagen). Verrassend genoeg treden deze effecten zelfs op in taalmodellen die zonder enige vorm van dropout zijn getraind. We analyseren deze effecten in de context van feitelijke herinnering en beschouwen de implicaties ervan voor circuitniveau-attributie in taalmodellen.
English
We investigate the internal structure of language model computations using
causal analysis and demonstrate two motifs: (1) a form of adaptive computation
where ablations of one attention layer of a language model cause another layer
to compensate (which we term the Hydra effect) and (2) a counterbalancing
function of late MLP layers that act to downregulate the maximum-likelihood
token. Our ablation studies demonstrate that language model layers are
typically relatively loosely coupled (ablations to one layer only affect a
small number of downstream layers). Surprisingly, these effects occur even in
language models trained without any form of dropout. We analyse these effects
in the context of factual recall and consider their implications for
circuit-level attribution in language models.