Bolsa de Dims: Interpretabilidad Mecanicista Sin Entrenamiento Mediante Patrones de Signo a Nivel de Dimensión

Resumen

Demostramos que la base estándar de los estados ocultos de los transformadores ya proporciona una base de características sin entrenamiento y de arquitectura general. Las dimensiones individuales codifican contenido semántico mediante sus signos (+/-1) y confianza mediante sus magnitudes, actuando como registros binarios independientes; una característica es un subconjunto de dimensiones con un patrón de signos consistente, que se lee contando acuerdos de signo sin una rotación aprendida. Validamos este marco de *Bag of Dims* en siete modelos que abarcan lenguaje (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visión (DINOv2, ViT-Base) y audio (AST). Los signos por sí solos contienen contenido predictivo: los patrones de signos con magnitud unitaria preservan entre el 60-93% de la precisión del siguiente token en top-5 a través de la cabeza del modelo de lenguaje, y la puntuación de Hamming sin decodificador alcanza el 80-90% en top-4096. Desde una caché de un solo token (un pase directo por token, sin contexto, sin etiquetas), detectamos 175 categorías con un AUC de 0.97-0.99 mediante acuerdo de signos; una sonda entrenada añade solo +0.018 de AUC y converge a pesos alineados con los ejes. Estas características son operativas causalmente: sobreviven a las proyecciones de atención K/V, se remontan a las coaliciones de neuronas FFN que las escriben (los controles de pesos aleatorios nunca las reproducen), y al invertir los signos de una característica durante el pase directo en vivo se suprime su concepto en cuatro modelos de lenguaje, con magnitud emparejada y especificidad de concepto. Las dimensiones permanecen independientes en todo momento (información mutua por pares por debajo de 0.006 bits). La estructura no es específica del lenguaje: los mismos signos por dimensión aparecen en visión autosupervisada (DINOv2, 9/12 superclases de ImageNet), visión supervisada (ViT-Base, 11/12) y audio (AST, 50/50 categorías de ESC-50), por lo que refleja el entrenamiento de transformadores en general, no el objetivo de modelado del lenguaje. La base estándar ya es suficiente para la lectura de características en un solo pase directo, sin optimización, sin días de GPU. El problema abierto pasa de encontrar la rotación correcta a catalogar qué codifica cada dimensión.

English

We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.