Los Transformers convergen hacia núcleos algorítmicos invariantes

Resumen

Los modelos de lenguaje a gran escala exhiben capacidades sofisticadas, sin embargo, comprender su funcionamiento interno sigue siendo un desafío central. Un obstáculo fundamental es que el entrenamiento selecciona por comportamiento, no por circuitos, por lo que muchas configuraciones de pesos pueden implementar la misma función. ¿Qué estructuras internas reflejan el cómputo y cuáles son accidentes de una ejecución de entrenamiento particular? Este trabajo extrae núcleos algorítmicos: subespacios compactos necesarios y suficientes para el rendimiento en la tarea. Transformadores entrenados de forma independiente aprenden pesos diferentes pero convergen a los mismos núcleos. Los transformadores de cadena de Markov incorporan núcleos 3D en subespacios casi ortogonales, pero recuperan espectros de transición idénticos. Los transformadores de adición modular descubren operadores cíclicos compactos durante el "grokking" que luego se inflan, produciendo un modelo predictivo de la transición de memorización a generalización. Los modelos de lenguaje GPT-2 gobiernan la concordancia sujeto-verbo a través de un único eje que, al invertirse, cambia el número gramatical en toda la generación a través de las escalas. Estos resultados revelan invariantes de baja dimensión que persisten a través de ejecuciones de entrenamiento y escalas, lo que sugiere que los cómputos del transformador se organizan alrededor de estructuras algorítmicas compactas y compartidas. La interpretabilidad mecanicista podría beneficiarse de apuntar a tales invariantes —la esencia computacional— en lugar de a detalles específicos de la implementación.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Los Transformers convergen hacia núcleos algorítmicos invariantes

Transformers converge to invariant algorithmic cores

Resumen

Support