Os Transformers convergem para núcleos algorítmicos invariantes

Resumo

Os modelos de linguagem de grande escala exibem capacidades sofisticadas, mas compreender como funcionam internamente continua a ser um desafio central. Um obstáculo fundamental é que o treinamento seleciona o comportamento, não a circuitaria, de modo que muitas configurações de pesos podem implementar a mesma função. Quais estruturas internas refletem a computação e quais são acidentes de uma execução de treinamento específica? Este trabalho extrai núcleos algorítmicos: subespaços compactos necessários e suficientes para o desempenho da tarefa. Transformadores treinados independentemente aprendem pesos diferentes, mas convergem para os mesmos núcleos. Transformadores de cadeia de Markov incorporam núcleos 3D em subespaços quase ortogonais, mas recuperam espectros de transição idênticos. Transformadores de adição modular descobrem operadores cíclicos compactos no "grokking" que posteriormente se inflam, produzindo um modelo preditivo da transição da memorização para a generalização. Os modelos de linguagem GPT-2 governam a concordância sujeito-verbo através de um único eixo que, quando invertido, inverte o número gramatical em toda a geração, através de escalas. Estes resultados revelam invariantes de baixa dimensão que persistem através de execuções de treinamento e escalas, sugerindo que as computações do transformador são organizadas em torno de estruturas algorítmicas compactas e partilhadas. A interpretabilidade mecanicista poderia beneficiar-se de direcionar tais invariantes – a essência computacional – em vez de detalhes específicos da implementação.

English

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Os Transformers convergem para núcleos algorítmicos invariantes

Transformers converge to invariant algorithmic cores

Resumo

Support