Attribuzione Meccanicistica dei Dati: Tracciare le Origini Addestrative delle Unità Interpretabili dei LLM

Abstract

Sebbene l'Interpretabilità Meccanicistica abbia identificato circuiti interpretabili negli LLM, le loro origini causali nei dati di addestramento rimangono elusive. Introduciamo l'Attribuzione Meccanicistica dei Dati (MDA), un framework scalabile che impiega le Funzioni di Influenza per ricondurre unità interpretabili a specifici campioni di addestramento. Attraverso esperimenti estesi sulla famiglia Pythia, convalidiamo causalmente che un intervento mirato – la rimozione o l'aumento di una piccola frazione di campioni ad alta influenza – modula significativamente l'emergenza di testine interpretabili, mentre interventi casuali non mostrano alcun effetto. La nostra analisi rivela che i dati strutturali ripetitivi (ad es., LaTeX, XML) agiscono come catalizzatori meccanicistici. Inoltre, osserviamo che interventi mirati alla formazione di testine di induzione inducono un cambiamento concomitante nella capacità di apprendimento in-context (ICL) del modello. Questo fornisce una prova causale diretta per la lunga ipotesi riguardante il legame funzionale tra le testine di induzione e l'ICL. Infine, proponiamo una pipeline di aumento dei dati meccanicistica che accelera costantemente la convergenza dei circuiti attraverso le diverse scale del modello, fornendo una metodologia principiata per guidare i percorsi di sviluppo degli LLM.

English

While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.

Attribuzione Meccanicistica dei Dati: Tracciare le Origini Addestrative delle Unità Interpretabili dei LLM

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

Abstract

Support