脳に基づく軸によるLLM状態の読解と制御
Brain-Grounded Axes for Reading and Steering LLM States
December 22, 2025
著者: Sandro Andric
cs.AI
要旨
大規模言語モデル(LLM)の解釈可能性手法は、一般的にテキストによる教師信号から方向性を導出するが、これは外部との接地を欠く場合がある。本研究では、人間の脳活動を学習信号として用いるのではなく、LLMの状態を読み取り・制御するための座標系として利用することを提案する。SMN4Lang MEGデータセットを用いて、位相同期値(PLV)パターンの単語レベル脳アトラスを構築し、独立成分分析(ICA)により潜在軸を抽出する。これらの軸を独立した語彙データベースとNERベースのラベル(品詞/対数頻度は健全性チェックとして使用)で検証した後、LLMのファインチューニングを行わずに、LLMの隠れ状態をこれらの脳軸に写像する軽量アダプタを学習する。この脳由来の方向に沿った制御により、TinyLlamaの中間層において、パープレキシティが一致する対照条件を通過した、堅牢な語彙的(頻度関連)軸が得られた。また、脳軸とテキストプローブの比較では、脳軸において、テキストプローブと比較してより大きな対数頻度シフトが、より低いパープレキシティで観察された。機能/内容軸(軸13)は、TinyLlama、Qwen2-0.5B、GPT-2において一貫した制御効果を示し、パープレキシティが一致するテキストレベルでの裏付けが得られた。TinyLlamaの第4層での効果は大きいが一貫性に欠けるため、二次的なものとして扱う(付録)。脳アトラスをGPTの埋め込み変化特徴なし、またはword2vec埋め込みで再構築した場合でも、軸構造は安定しており(対応する軸間で|r|=0.64-0.95)、循環性の懸念を低減する。探索的fMRIによる固定化は、埋め込み変化と対数頻度の潜在的な対応を示唆するが、効果は血行動態モデルの仮定に敏感であり、集団レベルの証拠としてのみ扱う。これらの結果は、新しいインターフェースを支持する:神経生理学に基づく軸は、LLMの振る舞いに対する解釈可能かつ制御可能な手段を提供する。
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.