Atribuição Mecanicista de Dados: Rastreando as Origens do Treinamento de Unidades Interpretáveis de LLMs

Resumo

Embora a Interpretabilidade Mecanicista tenha identificado circuitos interpretáveis em LLMs, as suas origens causais nos dados de treinamento permanecem elusivas. Apresentamos a Atribuição de Dados Mecanicista (MDA), uma estrutura escalável que emprega Funções de Influência para rastrear unidades interpretáveis até amostras específicas de treinamento. Através de extensos experimentos na família Pythia, validamos causalmente que a intervenção direcionada – remover ou aumentar uma pequena fração de amostras de alta influência – modula significativamente a emergência de cabeças interpretáveis, enquanto intervenções aleatórias não mostram efeito. Nossa análise revela que dados estruturais repetitivos (por exemplo, LaTeX, XML) atuam como um catalisador mecanicista. Adicionalmente, observamos que intervenções que visam a formação de cabeças de indução induzem uma mudança concorrente na capacidade de aprendizado em contexto (ICL) do modelo. Isto fornece evidência causal direta para a hipótese de longa data sobre a ligação funcional entre cabeças de indução e ICL. Finalmente, propomos um pipeline de aumento de dados mecanicista que acelera consistentemente a convergência do circuito através de escalas de modelo, fornecendo uma metodologia fundamentada para direcionar as trajetórias de desenvolvimento dos LLMs.

English

While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.

Atribuição Mecanicista de Dados: Rastreando as Origens do Treinamento de Unidades Interpretáveis de LLMs

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

Resumo

Support