Sac de Dimensions : Interprétabilité mécaniste sans entraînement via les motifs de signes au niveau des dimensions

Résumé

Nous montrons que la base standard des états cachés du transformeur fournit déjà une base de caractéristiques sans entraînement et générale pour l'architecture. Les dimensions individuelles encodent le contenu sémantique via leurs signes (+/-1) et la confiance via leurs magnitudes, agissant comme des registres binaires indépendants ; une caractéristique est un sous-ensemble de dimensions avec un patron de signes cohérent, lue en comptant les accords de signes sans rotation apprise. Nous validons ce cadre « Bag of Dims » sur sept modèles couvrant le langage (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), la vision (DINOv2, ViT-Base) et l'audio (AST). Les signes seuls portent un contenu prédictif : les patrons de signes à magnitude unitaire préservent 60 à 93 % de la précision top-5 du jeton suivant à travers la tête LM, et le score de Hamming sans décodeur atteint 80 à 90 % de la précision top-4096. À partir d'un cache de jeton unique (un passage avant par jeton, sans contexte, sans étiquettes), nous détectons 175 catégories avec une AUC de 0,97 à 0,99 par accord de signes ; une sonde entraînée n'ajoute que +0,018 à l'AUC et converge vers des poids alignés sur les axes. Ces caractéristiques sont causalement opérationnelles : elles survivent aux projections d'attention K/V, remontent aux coalitions de neurones FFN qui les écrivent (les contrôles à poids aléatoires ne les reproduisent jamais), et inverser les signes d'une caractéristique pendant le passage avant en direct supprime son concept dans quatre modèles de langage, avec appariement en magnitude et spécificité conceptuelle. Les dimensions restent indépendantes tout au long (information mutuelle par paire inférieure à 0,006 bit). La structure n'est pas spécifique au langage : les mêmes signes par dimension apparaissent en vision auto-supervisée (DINOv2, 9/12 superclasses ImageNet), en vision supervisée (ViT-Base, 11/12) et en audio (AST, 50/50 catégories ESC-50), ce qui reflète l'entraînement général des transformeurs, et non l'objectif de modélisation du langage. La base standard suffit déjà pour lire les caractéristiques en un seul passage avant, sans optimisation, sans jours de GPU. Le problème ouvert passe de la recherche de la bonne rotation au catalogue de ce que chaque dimension encode.

English

We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.