Bag of Dims: Механистическая интерпретируемость без обучения через знаковые паттерны на уровне измерений

Аннотация

Мы показываем, что стандартный базис скрытых состояний трансформера уже представляет собой обучаемый без тонкой настройки, архитектурно-общий признаковый базис. Отдельные измерения кодируют семантическое содержание через свои знаки (+/-1), а достоверность — через свои величины, действуя как независимые бинарные регистры; признак представляет собой подмножество измерений с согласованным паттерном знаков, считываемый путём подсчёта совпадений знаков без обучения поворота. Мы валидируем эту структуру Bag of Dims на семи моделях, охватывающих язык (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), зрение (DINOv2, ViT-Base) и аудио (AST). Одни только знаки несут предсказательное содержание: паттерны знаков с единичной величиной сохраняют 60–93% точности top-5 следующего токена через LM-головку, а бездекодерное оценивание по Хэммингу достигает 80–90% точности top-4096. Из кэша одного токена (один прямой проход на токен, без контекста, без меток) мы детектируем 175 категорий с AUC 0.97–0.99 по согласованию знаков; обученный зонд добавляет лишь +0.018 AUC и сходится к весам, выровненным вдоль осей. Эти признаки причинно действенны: они сохраняются при проекциях ключей/значений (K/V), прослеживаются до коалиций нейронов FFN, которые их порождают (контрольные эксперименты со случайными весами никогда этого не воспроизводят), а переворот знаков признака во время прямого прохода в живом режиме подавляет его концепт в четырёх языковых моделях, будучи согласованным по величине и специфичным для концепта. Измерения остаются независимыми на протяжении всего процесса (попарная взаимная информация ниже 0.006 бит). Эта структура не специфична для языка: те же самые поизмерные знаки наблюдаются в самоконтролируемом зрении (DINOv2, 9/12 суперклассов ImageNet), контролируемом зрении (ViT-Base, 11/12) и аудио (AST, 50/50 категорий ESC-50), что свидетельствует о том, что она отражает обучение трансформера в целом, а не задачу языкового моделирования. Стандартного базиса уже достаточно для считывания признаков за один прямой проход, без оптимизации, без затрат графических процессоров за дни. Открытая проблема смещается с поиска правильного поворота к каталогизации того, что кодирует каждое измерение.

English

We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.