Bag of Dims: 차원 수준 부호 패턴을 통한 훈련 없는 기계론적 해석 가능성
Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
June 17, 2026
저자: Varun Reddy Nalagatla
cs.AI
초록
우리는 트랜스포머 은닉 상태의 표준 기저가 이미 학습 불필요하고 아키텍처 일반적인 특징 기저를 제공함을 보여준다. 개별 차원은 부호(+/-1)를 통해 의미적 내용을, 크기를 통해 신뢰도를 인코딩하여 독립적인 이진 레지스터로 작동한다. 특징은 일관된 부호 패턴을 가진 차원들의 부분집합이며, 학습된 회전 없이 부호 일치를 세어 판독한다. 우리는 이 차원 묶음(Bag of Dims) 프레임워크를 언어(Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), 비전(DINOv2, ViT-Base), 오디오(AST)에 걸친 7개의 모델에서 검증한다.
부호만으로도 예측적 내용을 전달한다: 단위 크기 부호 패턴은 LM 헤드를 통해 상위 5개 다음 토큰 정확도의 60-93%를 유지하며, 디코더 없는 해밍 점수는 상위 4096에서 80-90%에 도달한다. 단일 토큰 캐시(토큰당 한 번의 순전파, 맥락 없음, 레이블 없음)에서 부호 일치를 통해 175개 범주를 AUC 0.97-0.99로 탐지한다. 학습된 프로브는 +0.018 AUC만 추가하며 축 정렬 가중치로 수렴한다. 이러한 특징들은 인과적으로 작동한다: K/V 어텐션 투영을 견디며, 이를 기록하는 FFN 뉴런 연합으로 추적 가능하다(무작위 가중치 대조군은 이를 재현하지 못함), 그리고 실시간 순전파 중 특징의 부호를 뒤집으면 네 가지 언어 모델에서 그 개념이 억제되며, 크기 일치 및 개념 특이적이다. 차원들은 전체적으로 독립성을 유지한다(쌍별 상호 정보 0.006비트 미만).
이 구조는 언어에 특화되지 않았다: 동일한 차원별 부호가 자기 지도 비전(DINOv2, 9/12 ImageNet 슈퍼클래스), 지도 비전(ViT-Base, 11/12), 오디오(AST, 50/50 ESC-50 범주)에서 나타나므로, 이는 언어 모델링 목표가 아닌 일반적인 트랜스포머 학습을 반영한다. 표준 기저는 이미 한 번의 순전파, 최적화 없이, GPU-일 없이 특징 판독에 충분하다. 공개 문제는 올바른 회전을 찾는 것에서 각 차원이 인코딩하는 것을 목록화하는 것으로 전환된다.
English
We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST).
Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits).
The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.