Bag of Dims: Trainingvrije Mechanistische Interpreteerbaarheid via Dimensieniveau-Tekenpatronen

Samenvatting

We tonen aan dat de standaardbasis van verborgen toestanden in transformatoren reeds een trainingsvrije, architectuur-algemene kenmerkbasis vormt. Individuele dimensies coderen semantische inhoud via hun tekens (+/-1) en vertrouwen via hun magnitudes, en fungeren als onafhankelijke binaire registers; een kenmerk is een subset van dimensies met een consistent tekenpatroon, uitgelezen door tekenovereenkomsten te tellen zonder geleerde rotatie. We valideren dit Bag of Dims-raamwerk over zeven modellen, variërend over taal (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visie (DINOv2, ViT-Base) en audio (AST). Alleen tekens dragen al voorspellende inhoud: tekenpatronen met eenheidsmagnitude behouden 60-93% top-5 volgende-token nauwkeurigheid via de LM-head, en decoder-vrije Hamming-score bereikt 80-90% top-4096. Vanuit een enkel-token cache (één voorwaartse doorgang per token, geen context, geen labels) detecteren we 175 categorieën met AUC 0,97-0,99 via tekenovereenkomst; een getrainde probe voegt slechts +0,018 AUC toe en convergeert naar as-uitgelijnde gewichten. Deze kenmerken zijn causaal werkzaam: ze overleven de K/V-aandachtsprojecties, zijn herleidbaar tot de FFN-neuroncoalities die ze schrijven (willekeurige gewichtscontroles reproduceren dit nooit), en het omdraaien van een kenmerkens tekens tijdens de live voorwaartse doorgang onderdrukt het concept in vier taalmodellen, magnitude-gematcht en conceptspecifiek. Dimensies blijven onafhankelijk gedurende het proces (paarsgewijze wederzijdse informatie onder 0,006 bits). De structuur is niet specifiek voor taal: dezelfde per-dimensie tekens verschijnen in zelf-gesuperviseerd zicht (DINOv2, 9/12 ImageNet-superklassen), gesuperviseerd zicht (ViT-Base, 11/12) en audio (AST, 50/50 ESC-50-categorieën), dus het weerspiegelt algemene transformator-training, niet de taalmodelleringsdoelstelling. De standaardbasis is al voldoende voor kenmerk-uitlezing in één voorwaartse doorgang, zonder optimalisatie, zonder GPU-dagen. Het open probleem verschuift van het vinden van de juiste rotatie naar het catalogiseren van wat elke dimensie codeert.

English

We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.