Atribución Mecanicista de Datos: Rastreando los Orígenes de Entrenamiento de las Unidades Interpretables de los LLM
Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
January 29, 2026
Autores: Jianhui Chen, Yuzhang Luo, Liangming Pan
cs.AI
Resumen
Si bien la Interpretabilidad Mecanicista ha identificado circuitos interpretables en los LLM, sus orígenes causales en los datos de entrenamiento siguen siendo esquivos. Presentamos la Atribución Mecanicista de Datos (MDA), un marco escalable que emplea Funciones de Influencia para rastrear unidades interpretables hasta muestras específicas de entrenamiento. Mediante experimentos exhaustivos en la familia Pythia, validamos causalmente que la intervención dirigida—eliminar o aumentar una pequeña fracción de muestras de alta influencia—modula significativamente la emergencia de cabezas interpretables, mientras que las intervenciones aleatorias no muestran efecto. Nuestro análisis revela que los datos estructurales repetitivos (p. ej., LaTeX, XML) actúan como un catalizador mecanicista. Además, observamos que las intervenciones dirigidas a la formación de cabezas de inducción inducen un cambio concurrente en la capacidad de aprendizaje en contexto (ICL) del modelo. Esto proporciona evidencia causal directa para la hipótesis de larga data sobre el vínculo funcional entre las cabezas de inducción y el ICL. Finalmente, proponemos una canalización de aumento de datos mecanicista que acelera consistentemente la convergencia de circuitos a través de las escalas del modelo, proporcionando una metodología fundamentada para dirigir las trayectorias de desarrollo de los LLM.
English
While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.