Bag of Dims: Trainingsfreie mechanistische Interpretierbarkeit durch Vorzeichenmuster auf Dimensionsebene

Zusammenfassung

Wir zeigen, dass die Standardbasis der versteckten Zustände von Transformatoren bereits eine trainingsfreie, architekturübergreifende Merkmalsbasis bietet. Einzelne Dimensionen kodieren semantischen Gehalt über ihre Vorzeichen (±1) und Konfidenz über ihre Beträge und fungieren als unabhängige binäre Register; ein Merkmal ist eine Teilmenge von Dimensionen mit einem konsistenten Vorzeichenmuster, das durch Zählen von Vorzeichenübereinstimmungen ohne gelernte Rotation ausgelesen wird. Dieses Bag-of-Dims-Framework validieren wir an sieben Modellen aus den Bereichen Sprache (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), Bildverarbeitung (DINOv2, ViT-Base) und Audio (AST). Allein die Vorzeichen tragen prädiktiven Gehalt: Vorzeichenmuster mit Einheitsbetrag bewahren 60–93% der Top-5-Nächste-Token-Genauigkeit durch den LM-Kopf, und decoderfreies Hamming-Scoring erreicht 80–90% der Top-4096. Aus einem Ein-Token-Cache (ein Vorwärtspass pro Token, ohne Kontext, ohne Labels) detektieren wir 175 Kategorien mit einem AUC von 0,97–0,99 durch Vorzeichenübereinstimmung; ein trainierter Sondenkopf fügt nur +0,018 AUC hinzu und konvergiert zu achsengebundenen Gewichten. Diese Merkmale sind kausal wirksam: Sie überleben die K/V-Aufmerksamkeitsprojektionen, lassen sich auf die FFN-Neuronenkoalitionen zurückverfolgen, die sie schreiben (Kontrollen mit zufälligen Gewichten reproduzieren dies nie), und das Umdrehen der Vorzeichen eines Merkmals während des aktiven Vorwärtspasses unterdrückt sein Konzept über vier Sprachmodelle hinweg, betragsangepasst und konzeptspezifisch. Die Dimensionen bleiben währenddessen unabhängig (paarweise Transinformation unter 0,006 Bit). Die Struktur ist nicht sprachspezifisch: Dieselben dimensionsweisen Vorzeichen treten in selbstüberwachtem Sehen (DINOv2, 9/12 ImageNet-Superklassen), überwachtem Sehen (ViT-Base, 11/12) und Audio (AST, 50/50 ESC-50-Kategorien) auf, spiegelt also allgemein das Training von Transformatoren wider, nicht das Sprachmodellierungsziel. Die Standardbasis reicht bereits für das Merkmalsauslesen in einem Vorwärtspass aus, ohne Optimierung, ohne GPU-Tage. Das offene Problem verschiebt sich von der Suche nach der richtigen Rotation hin zur Katalogisierung dessen, was jede Dimension kodiert.

English

We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.