Saco de Dimensões: Interpretabilidade Mecanicista Sem Treinamento via Padrões de Sinais em Nível de Dimensão

Resumo

Mostramos que a base canônica dos estados ocultos do transformer já fornece uma base de características livre de treinamento e arquiteturalmente geral. Dimensões individuais codificam conteúdo semântico por meio de seus sinais (+/-1) e confiança por meio de suas magnitudes, atuando como registros binários independentes; uma característica é um subconjunto de dimensões com um padrão de sinais consistente, lido pela contagem de concordância de sinais sem rotação aprendida. Validamos essa estrutura Bag of Dims em sete modelos abrangendo linguagem (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visão (DINOv2, ViT-Base) e áudio (AST). Apenas os sinais carregam conteúdo preditivo: padrões de sinais com magnitude unitária preservam 60-93% da acurácia do top-5 no próximo token através da cabeça de LM, e a pontuação de Hamming sem decodificador atinge 80-90% do top-4096. A partir de um cache de token único (uma passagem direta por token, sem contexto, sem rótulos), detectamos 175 categorias com AUC 0,97-0,99 por concordância de sinais; uma sonda treinada adiciona apenas +0,018 AUC e converge para pesos alinhados aos eixos. Essas características são operacionalmente causais: elas sobrevivem às projeções de atenção K/V, remontam às coalizões de neurônios FFN que as escrevem (controles com pesos aleatórios nunca as reproduzem), e inverter os sinais de uma característica durante a passagem direta ao vivo suprime seu conceito em quatro modelos de linguagem, com magnitude correspondente e especificidade de conceito. As dimensões permanecem independentes ao longo do processo (informação mútua pareada abaixo de 0,006 bits). A estrutura não é específica para linguagem: os mesmos sinais por dimensão aparecem em visão auto-supervisionada (DINOv2, 9/12 superclasses do ImageNet), visão supervisionada (ViT-Base, 11/12) e áudio (AST, 50/50 categorias ESC-50), refletindo assim o treinamento de transformers em geral, e não o objetivo de modelagem de linguagem. A base canônica já é suficiente para a leitura de características em uma única passagem direta, sem otimização, sem dias de GPU. O problema em aberto passa de encontrar a rotação correta para catalogar o que cada dimensão codifica.

English

We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.