ハイドラ効果:言語モデル計算における創発的自己修復
The Hydra Effect: Emergent Self-repair in Language Model Computations
July 28, 2023
著者: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
cs.AI
要旨
因果分析を用いて言語モデルの計算内部構造を調査し、2つの主要なモチーフを明らかにしました:(1) 言語モデルの1つのアテンションレイヤーを除去すると、別のレイヤーが補償する適応的計算の形態(Hydra効果と命名)と、(2) 最尤トークンを抑制する後期MLPレイヤーのバランス調整機能です。アブレーション研究により、言語モデルのレイヤーは一般的に比較的緩やかに結合していることが示されました(1つのレイヤーへの除去は、下流の少数のレイヤーにのみ影響を与えます)。驚くべきことに、これらの効果はドロップアウトを一切使用せずに訓練された言語モデルでも発生します。これらの効果を事実想起の文脈で分析し、言語モデルにおける回路レベルの帰属に関する示唆を考察します。
English
We investigate the internal structure of language model computations using
causal analysis and demonstrate two motifs: (1) a form of adaptive computation
where ablations of one attention layer of a language model cause another layer
to compensate (which we term the Hydra effect) and (2) a counterbalancing
function of late MLP layers that act to downregulate the maximum-likelihood
token. Our ablation studies demonstrate that language model layers are
typically relatively loosely coupled (ablations to one layer only affect a
small number of downstream layers). Surprisingly, these effects occur even in
language models trained without any form of dropout. We analyse these effects
in the context of factual recall and consider their implications for
circuit-level attribution in language models.