ChatPaper.aiChatPaper

Der Hydra-Effekt: Emergente Selbstreparatur in Sprachmodellberechnungen

The Hydra Effect: Emergent Self-repair in Language Model Computations

July 28, 2023
Autoren: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI

Zusammenfassung

Wir untersuchen die interne Struktur von Berechnungen in Sprachmodellen mithilfe von Kausalanalysen und demonstrieren zwei Motive: (1) eine Form adaptiver Berechnung, bei der Ablationen einer Attention-Schicht eines Sprachmodells dazu führen, dass eine andere Schicht kompensiert (was wir als Hydra-Effekt bezeichnen), und (2) eine ausgleichende Funktion späterer MLP-Schichten, die darauf abzielt, den Maximum-Likelihood-Token herunterzuregulieren. Unsere Ablationsstudien zeigen, dass die Schichten von Sprachmodellen typischerweise relativ locker gekoppelt sind (Ablationen einer Schicht beeinflussen nur eine geringe Anzahl nachgelagerter Schichten). Überraschenderweise treten diese Effekte sogar in Sprachmodellen auf, die ohne jegliche Form von Dropout trainiert wurden. Wir analysieren diese Effekte im Kontext der Faktenabrufung und betrachten ihre Implikationen für die Attribution auf Schaltungsebene in Sprachmodellen.
English
We investigate the internal structure of language model computations using causal analysis and demonstrate two motifs: (1) a form of adaptive computation where ablations of one attention layer of a language model cause another layer to compensate (which we term the Hydra effect) and (2) a counterbalancing function of late MLP layers that act to downregulate the maximum-likelihood token. Our ablation studies demonstrate that language model layers are typically relatively loosely coupled (ablations to one layer only affect a small number of downstream layers). Surprisingly, these effects occur even in language models trained without any form of dropout. We analyse these effects in the context of factual recall and consider their implications for circuit-level attribution in language models.
PDF190December 15, 2024