Трансформеры сходятся к инвариантным алгоритмическим ядрам

Аннотация

Крупные языковые модели демонстрируют сложные возможности, однако понимание их внутренних механизмов остаётся ключевой проблемой. Фундаментальное препятствие заключается в том, что обучение отбирает поведение, а не схему связей, поэтому множество конфигураций весов могут реализовывать одну и ту же функцию. Какие внутренние структуры отражают вычисления, а какие являются артефактами конкретного запуска обучения? В данной работе извлекаются алгоритмические ядра: компактные подпространства, необходимые и достаточные для выполнения задачи. Независимо обученные трансформеры изучают разные веса, но сходятся к одним и тем же ядрам. Трансформеры с марковскими цепями внедряют трёхмерные ядра в почти ортогональные подпространства, но восстанавливают идентичные спектры переходов. Трансформеры для модульного сложения обнаруживают компактные циклические операторы на этапе "озарения" (grokking), которые впоследствии расширяются, что позволяет построить прогностическую модель перехода от запоминания к обобщению. Языковые модели GPT-2 управляют согласованием подлежащего и сказуемого через единственную ось, при инверсии которой грамматическое число инвертируется во всей генерируемой последовательности на всех масштабах. Эти результаты выявляют низкоразмерные инварианты, сохраняющиеся across различных запусков обучения и масштабов, что позволяет предположить, что вычисления трансформеров организованы вокруг компактных, общих алгоритмических структур. Механистическая интерпретируемость может выиграть от фокусировки на таких инвариантах — вычислительной сущности — а не на деталях конкретной реализации.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Трансформеры сходятся к инвариантным алгоритмическим ядрам

Transformers converge to invariant algorithmic cores

Аннотация

Support