O Efeito Hidra: Autorreparação Emergente em Computações de Modelos de Linguagem
The Hydra Effect: Emergent Self-repair in Language Model Computations
July 28, 2023
Autores: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI
Resumo
Investigamos a estrutura interna das computações dos modelos de linguagem utilizando análise causal e demonstramos dois motivos: (1) uma forma de computação adaptativa em que ablações de uma camada de atenção de um modelo de linguagem fazem com que outra camada compense (que denominamos efeito Hydra) e (2) uma função de contrabalanço das camadas MLP tardias que atuam para reduzir a regulação do token de máxima verossimilhança. Nossos estudos de ablação demonstram que as camadas dos modelos de linguagem são tipicamente relativamente pouco acopladas (ablações em uma camada afetam apenas um pequeno número de camadas subsequentes). Surpreendentemente, esses efeitos ocorrem mesmo em modelos de linguagem treinados sem qualquer forma de dropout. Analisamos esses efeitos no contexto de recordação factual e consideramos suas implicações para a atribuição em nível de circuito em modelos de linguagem.
English
We investigate the internal structure of language model computations using
causal analysis and demonstrate two motifs: (1) a form of adaptive computation
where ablations of one attention layer of a language model cause another layer
to compensate (which we term the Hydra effect) and (2) a counterbalancing
function of late MLP layers that act to downregulate the maximum-likelihood
token. Our ablation studies demonstrate that language model layers are
typically relatively loosely coupled (ablations to one layer only affect a
small number of downstream layers). Surprisingly, these effects occur even in
language models trained without any form of dropout. We analyse these effects
in the context of factual recall and consider their implications for
circuit-level attribution in language models.