Механистическая атрибуция данных: отслеживание источников обучения интерпретируемых единиц больших языковых моделей

Аннотация

Хотя механистическая интерпретируемость выявила интерпретируемые схемы в больших языковых моделях (LLM), их причинно-следственное происхождение в обучающих данных остается неясным. Мы представляем Mechanistic Data Attribution (MDA) — масштабируемый фреймворк, использующий функции влияния для отслеживания интерпретируемых единиц до конкретных обучающих примеров. В ходе масштабных экспериментов на семействе моделей Pythia мы каузально подтверждаем, что целевое вмешательство — удаление или дополнение небольшой доли высоковлиятельных примеров — существенно модулирует возникновение интерпретируемых голов, тогда как случайные вмешательства не оказывают эффекта. Наш анализ показывает, что повторяющиеся структурные данные (например, LaTeX, XML) выступают в роли механистического катализатора. Кроме того, мы наблюдаем, что вмешательства, нацеленные на формирование индукционных голов, вызывают сопутствующее изменение способности модели к обучению в контексте (ICL). Это предоставляет прямое каузальное доказательство давней гипотезы о функциональной связи между индукционными головами и ICL. Наконец, мы предлагаем конвейер механистического дополнения данных, который стабильно ускоряет сходимость схем на различных масштабах моделей, предоставляя принципиальную методологию для управления траекториями развития LLM.

English

While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.

Механистическая атрибуция данных: отслеживание источников обучения интерпретируемых единиц больших языковых моделей

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

Аннотация

Support