El Efecto Hidra: Autorreparación Emergente en los Cálculos de Modelos de Lenguaje
The Hydra Effect: Emergent Self-repair in Language Model Computations
July 28, 2023
Autores: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI
Resumen
Investigamos la estructura interna de los cálculos de los modelos de lenguaje mediante análisis causal y demostramos dos patrones: (1) una forma de computación adaptativa en la que las ablaciones de una capa de atención de un modelo de lenguaje hacen que otra capa compense (lo que denominamos el efecto Hydra) y (2) una función de contrapeso de las capas MLP tardías que actúan para regular a la baja el token de máxima verosimilitud. Nuestros estudios de ablación demuestran que las capas de los modelos de lenguaje suelen estar relativamente poco acopladas (las ablaciones en una capa solo afectan a un pequeño número de capas posteriores). Sorprendentemente, estos efectos ocurren incluso en modelos de lenguaje entrenados sin ninguna forma de dropout. Analizamos estos efectos en el contexto del recuerdo de hechos y consideramos sus implicaciones para la atribución a nivel de circuito en los modelos de lenguaje.
English
We investigate the internal structure of language model computations using
causal analysis and demonstrate two motifs: (1) a form of adaptive computation
where ablations of one attention layer of a language model cause another layer
to compensate (which we term the Hydra effect) and (2) a counterbalancing
function of late MLP layers that act to downregulate the maximum-likelihood
token. Our ablation studies demonstrate that language model layers are
typically relatively loosely coupled (ablations to one layer only affect a
small number of downstream layers). Surprisingly, these effects occur even in
language models trained without any form of dropout. We analyse these effects
in the context of factual recall and consider their implications for
circuit-level attribution in language models.