Attribution mécaniste des données : retracer les origines d'entraînement des unités interprétables des grands modèles de langage
Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
January 29, 2026
papers.authors: Jianhui Chen, Yuzhang Luo, Liangming Pan
cs.AI
papers.abstract
Si l'interprétabilité mécaniste a permis d'identifier des circuits interprétables dans les LLM, leurs origines causales dans les données d'entraînement demeurent insaisissables. Nous présentons l'Attribution Mécaniste des Données (MDA), un cadre évolutif qui utilise les Fonctions d'Influence pour retracer les unités interprétables jusqu'à des échantillons d'entraînement spécifiques. Par des expériences approfondies sur la famille de modèles Pythia, nous validons causalement qu'une intervention ciblée – supprimer ou augmenter une petite fraction d'échantillons à forte influence – module significativement l'émergence de têtes interprétables, alors que des interventions aléatoires n'ont aucun effet. Notre analyse révèle que les données structurelles répétitives (par exemple, LaTeX, XML) agissent comme un catalyseur mécaniste. De plus, nous observons que les interventions ciblant la formation des têtes d'induction provoquent un changement concomitant dans la capacité d'apprentissage en contexte (ICL) du modèle. Cela fournit une preuve causale directe de l'hypothèse de longue date concernant le lien fonctionnel entre les têtes d'induction et l'ICL. Enfin, nous proposons un pipeline d'augmentation mécaniste des données qui accélère constamment la convergence des circuits à travers différentes échelles de modèles, offrant une méthodologie rigoureuse pour orienter les trajectoires développementales des LLM.
English
While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.