L'Effetto Idra: Autoriparazione Emergente nei Calcoli dei Modelli Linguistici
The Hydra Effect: Emergent Self-repair in Language Model Computations
July 28, 2023
Autori: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI
Abstract
Investighiamo la struttura interna dei calcoli dei modelli linguistici utilizzando
analisi causale e dimostriamo due motivi ricorrenti: (1) una forma di calcolo adattivo
in cui l'ablazione di uno strato di attenzione di un modello linguistico induce un altro strato
a compensare (che denominiamo effetto Hydra) e (2) una funzione di bilanciamento
degli strati MLP finali che agiscono per ridurre la regolazione del token a massima
verosimiglianza. I nostri studi di ablazione dimostrano che gli strati dei modelli linguistici
sono tipicamente accoppiati in modo relativamente lasco (le ablazioni di uno strato influenzano solo un
piccolo numero di strati a valle). Sorprendentemente, questi effetti si verificano anche in
modelli linguistici addestrati senza alcuna forma di dropout. Analizziamo questi effetti
nel contesto del richiamo di fatti e consideriamo le loro implicazioni per
l'attribuzione a livello di circuito nei modelli linguistici.
English
We investigate the internal structure of language model computations using
causal analysis and demonstrate two motifs: (1) a form of adaptive computation
where ablations of one attention layer of a language model cause another layer
to compensate (which we term the Hydra effect) and (2) a counterbalancing
function of late MLP layers that act to downregulate the maximum-likelihood
token. Our ablation studies demonstrate that language model layers are
typically relatively loosely coupled (ablations to one layer only affect a
small number of downstream layers). Surprisingly, these effects occur even in
language models trained without any form of dropout. We analyse these effects
in the context of factual recall and consider their implications for
circuit-level attribution in language models.