Mechanistische Data Attributie: Het Opsporen van de Trainingsherkomst van Interpreteerbare LLM-eenheden

Samenvatting

Hoewel mechanistische interpreteerbaarheid interpreteerbare circuits in LLM's heeft geïdentificeerd, blijven hun causale oorsprongen in de trainingsgegevens ongrijpbaar. Wij introduceren Mechanistische Data-attributie (MDA), een schaalbaar raamwerk dat invloedsfuncties gebruikt om interpreteerbare eenheden terug te voeren naar specifieke trainingsvoorbeelden. Door middel van uitgebreide experimenten op de Pythia-familie valideren wij causaal dat gerichte interventie – het verwijderen of aanvullen van een kleine fractie zeer invloedrijke voorbeelden – de emergentie van interpreteerbare heads significant moduleert, terwijl willekeurige interventies geen effect hebben. Onze analyse onthult dat repetitieve structurele data (bijv. LaTeX, XML) fungeert als een mechanistische katalysator. Verder observeren wij dat interventies gericht op de vorming van inductie-heads een gelijktijdige verandering induceren in het vermogen van het model om in-context te leren (ICL). Dit levert direct causaal bewijs voor de lang bestaande hypothese over de functionele link tussen inductie-heads en ICL. Ten slotte stellen wij een pijplijn voor mechanistische data-augmentatie voor die consistent de circuitconvergentie over verschillende modelschalen versnelt, wat een principekader biedt voor het sturen van de ontwikkelingspaden van LLM's.

English

While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.

Mechanistische Data Attributie: Het Opsporen van de Trainingsherkomst van Interpreteerbare LLM-eenheden

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

Samenvatting

Support