Mechanistische Datenattribution: Zurückverfolgung der Trainingsursprünge interpretierbarer Einheiten großer Sprachmodelle
Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
January 29, 2026
papers.authors: Jianhui Chen, Yuzhang Luo, Liangming Pan
cs.AI
papers.abstract
Während die mechanistische Interpretierbarkeit interpretierbare Schaltkreise in großen Sprachmodellen identifiziert hat, bleiben deren kausale Ursprünge in den Trainingsdaten schwer fassbar. Wir stellen Mechanistic Data Attribution (MDA) vor, einen skalierbaren Rahmen, der Einflussfunktionen nutzt, um interpretierbare Einheiten auf spezifische Trainingsbeispiele zurückzuführen. Durch umfangreiche Experimente mit der Pythia-Modellfamilie validieren wir kausal, dass gezielte Interventionen – das Entfernen oder Anreichern eines kleinen Anteils hoch einflussreicher Beispiele – die Herausbildung interpretierbarer Heads signifikant moduliert, während zufällige Interventionen keine Wirkung zeigen. Unsere Analyse zeigt, dass repetitive strukturelle Daten (z.B. LaTeX, XML) als mechanistischer Katalysator wirken. Darüber hinaus beobachten wir, dass Interventionen, die auf die Bildung von Induction Heads abzielen, eine gleichzeitige Veränderung der Fähigkeit des Modells zum In-Context-Learning (ICL) bewirken. Dies liefert direkte kausale Evidenz für die langjährige Hypothese zum funktionalen Zusammenhang zwischen Induction Heads und ICL. Abschließend schlagen wir eine Pipeline zur mechanistischen Datenanreicherung vor, die konsistent die Schaltkreis-Konvergenz über verschiedene Modellgrößen hinweg beschleunigt und damit eine prinzipienbasierte Methodik zur Steuerung der Entwicklungsverläufe von LLMs bietet.
English
While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.