Hirnbasierte Achsen zum Lesen und Steuern von LLM-Zuständen
Brain-Grounded Axes for Reading and Steering LLM States
December 22, 2025
papers.authors: Sandro Andric
cs.AI
papers.abstract
Interpretierbarkeitsmethoden für große Sprachmodelle (LLMs) leiten Richtungen typischerweise aus textueller Supervision ab, was an externer Verankerung mangeln kann. Wir schlagen vor, menschliche Gehirnaktivität nicht als Trainingssignal, sondern als Koordinatensystem zum Auslesen und Steuern von LLM-Zuständen zu nutzen. Unter Verwendung des SMN4Lang-MEG-Datensatzes konstruieren wir einen wortbasierten Hirnatlas von Phase-Locking-Value(PLV)-Mustern und extrahieren latente Achsen mittels ICA. Wir validieren die Achsen mit unabhängigen Lexika und NER-basierten Labels (POS/Log-Frequenz als Plausibilitätschecks) und trainieren dann leichte Adapter, die LLM-Verborgene-Zustände auf diese Hirnachsen abbilden, ohne das LLM feinzutunen. Das Steuern entlang der resultierenden, hirnbasierten Richtungen ergibt eine robuste lexikalische (frequenzverknüpfte) Achse in einer mittleren TinyLlama-Schicht, die perplexitätskontrollierte Vergleiche übersteht, und ein Hirn-vs-Text-Probe-Vergleich zeigt größere Log-Frequenz-Verschiebungen (relativ zur Textprobe) bei geringerer Perplexität für die Hirnachse. Eine Funktions-/Inhalts-Achse (Achse 13) zeigt konsistentes Steuerverhalten in TinyLlama, Qwen2-0.5B und GPT-2, mit PPL-angepasster textueller Bestätigung. Effekte in Schicht 4 von TinyLlama sind groß, aber inkonsistent, daher behandeln wir sie als sekundär (Anhang). Die Achsenstruktur ist stabil, wenn der Atlas ohne GPT-Embedding-Änderungs-Merkmale oder mit word2vec-Embeddings neu aufgebaut wird (|r|=0,64–0,95 übereinstimmender Achsen), was Zirkularitätsbedenken reduziert. Eine explorative fMRT-Verankerung deutet auf eine potenzielle Übereinstimmung für Embedding-Änderung und Log-Frequenz hin, aber die Effekte sind empfindlich gegenüber hämodynamischen Modellierungsannahmen und werden nur als populationsbezogene Evidenz betrachtet. Diese Ergebnisse unterstützen eine neue Schnittstelle: neurophysiologisch verankerte Achsen bieten interpretierbare und steuerbare Stellgrößen für das Verhalten von LLMs.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.