ChatPaper.aiChatPaper

기계론적 데이터 귀속: 해석 가능한 LLM 단위의 학습 기원 추적

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

January 29, 2026
저자: Jianhui Chen, Yuzhang Luo, Liangming Pan
cs.AI

초록

기계적 해석 가능성 연구에서 대규모 언어 모델의 해석 가능한 회로를 규명해왔지만, 이러한 회로의 훈련 데이터 내 인과적 기원은 여전히 밝혀지지 않았습니다. 우리는 영향 함수를 활용하여 해석 가능 단위를 특정 훈련 샘플로 추적하는 확장 가능한 프레임워크인 기계적 데이터 귀속(MDA)을 제안합니다. Pythia 모델군을 대상으로 한 광범위한 실험을 통해, 표적 중재(소수의 고영향력 샘플 제거 또는 증강)가 해석 가능한 헤드의 출현을 유의미하게 조절하는 반면 무작위 중재는 효과가 없음을 인과적으로 입증했습니다. 우리의 분석은 반복적 구조 데이터(예: LaTeX, XML)가 기계적 촉매 역할을 함을 보여줍니다. 더 나아가, 귀납 헤드 형성을 표적으로 한 중재가 모델의 문맥 학습 능력에 동반 변화를 유발함을 관찰했습니다. 이는 귀납 헤드와 문맥 학습 간 기능적 연결에 대한 오랜 가설에 대한 직접적인 인과적 증거를 제공합니다. 마지막으로, 모델 규모에 걸쳐 회로 수렴을 일관되게 가속화하는 기계적 데이터 증강 파이프라인을 제안하며, 대규모 언어 모델의 발전 궤적을 조절하는 원칙적인 방법론을 제시합니다.
English
While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.
PDF34January 31, 2026