機構論的データ属性付け:解釈可能なLLMユニットの学習起源の追跡
Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
January 29, 2026
著者: Jianhui Chen, Yuzhang Luo, Liangming Pan
cs.AI
要旨
機械論的解釈可能性(Mechanistic Interpretability)の研究により、大規模言語モデル(LLM)内の解釈可能な回路は特定されているものの、それらの因果的起源が学習データのどこに存在するかは未解明である。本論文では、影響関数(Influence Functions)を活用し、解釈可能な単位を特定の学習サンプルまで遡って追跡するスケーラブルな枠組み「Mechanistic Data Attribution(MDA)」を提案する。Pythiaモデルファミリーを用いた広範な実験を通じて、標的介入(ごく少数の高影響力サンプルの削除または拡張)が解釈可能なヘッドの出現を有意に調節する一方、無作為な介入には効果がないことを因果的に検証した。分析により、反復的な構造データ(LaTeX、XMLなど)が機械論的触媒として機能することが明らかとなった。さらに、誘導ヘッド(induction head)形成を標的とした介入が、モデルの文脈内学習(ICL)能力に同時変化を誘起することを観測した。これは、誘導ヘッドとICLの機能的関連性に関する長年の仮説に対する直接的な因果的証拠を提供する。最後に、モデル規模を超えて回路の収束を一貫して加速する機械論的データ拡張パイプラインを提案し、LLMの発達軌道を制御するための原理的な方法論を示す。
English
While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.