ChatPaper.aiChatPaper

Bag of Dims:次元レベルの符号パターンによるトレーニング不要の機構的解釈可能性

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

June 17, 2026
著者: Varun Reddy Nalagatla
cs.AI

要旨

トランスフォーマーの隠れ状態の標準基底が、訓練不要でアーキテクチャに依存しない特徴基底としてすでに機能していることを示す。個々の次元は、その符号(+1/-1)によって意味内容を、その大きさによって確信度を符号化し、独立した二値レジスタとして動作する。特徴とは、一貫した符号パターンを持つ次元の部分集合であり、学習された回転を伴わずに符号の一致数を数えることで読み取られる。この「Bag of Dims」フレームワークを、言語(Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B)、視覚(DINOv2、ViT-Base)、音声(AST)にわたる7つのモデルで検証した。 符号のみで予測内容を伝達できる。単位大きさの符号パターンは、LMヘッドを通してトップ5の次トークン精度の60~93%を維持し、デコーダ不要のハミングスコアリングはトップ4096で80~90%に達する。単一トークンのキャッシュ(トークンあたり1回の順伝搬、文脈なし、ラベルなし)から、符号一致により175カテゴリーをAUC 0.97~0.99で検出する。訓練されたプローブはAUCをわずか+0.018向上させるに過ぎず、軸に沿った重みに収束する。これらの特徴は因果的に作用する。K/Vアテンション射影を生き延び、それらを書き込むFFNニューロン連合に遡ることができ(ランダム重みの対照実験では決して再現されない)、生の順伝搬中に特徴の符号を反転させると、4つの言語モデルにおいて、大きさを一致させた概念特異的な方法でその概念が抑制される。次元は全体を通じて独立を保つ(ペアワイズ相互情報量は0.006ビット未満)。 この構造は言語に固有ではない。同じ次元単位の符号が、自己教師あり視覚(DINOv2、ImageNetスーパークラス12中9)、教師あり視覚(ViT-Base、12中11)、音声(AST、ESC-50の50カテゴリーすべて)にも現れることから、これは言語モデリング目的ではなく、トランスフォーマー訓練一般を反映している。標準基底は、1回の順伝搬で特徴を読み取るのにすでに十分であり、最適化もGPU時間も不要である。未解決の問題は、適切な回転を見つけることから、各次元が何を符号化しているかをカタログ化することへと移る。
English
We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.