ChatPaper.aiChatPaper

Hersenverankerde Assen voor het Lezen en Sturen van LLM-Toestanden

Brain-Grounded Axes for Reading and Steering LLM States

December 22, 2025
Auteurs: Sandro Andric
cs.AI

Samenvatting

Interpretatiemethoden voor grote taalmodellen (LLM's) leiden richtingen typisch af van tekstueel toezicht, wat een gebrek aan externe verankering kan hebben. Wij stellen voor om menselijke hersenactiviteit niet als trainingssignaal te gebruiken, maar als een coördinatenstelsel om LLM-toestanden uit te lezen en te sturen. Met behulp van de SMN4Lang MEG-dataset construeren we een woordniveau hersenatlas van fase-synchronisatiewaarde (PLV) patronen en extraheren we latente assen via ICA. We valideren de assen met onafhankelijke lexicons en NER-gebaseerde labels (woordsoort/log-frequentie gebruikt als sanity checks), en trainen vervolgens lichtgewicht adapters die LLM-verborgen toestanden afbeelden op deze hersenassen zonder het LLM fine-tunen. Sturing langs de resulterende, uit de hersenen afgeleide richtingen levert een robuuste lexicale (aan frequentie gelinkte) as op in een middelste TinyLlama-laag, die perplexiteit-gematchte controles overleeft, en een hersen-versus-text probe vergelijking toont grotere log-frequentieverschuivingen (relatief aan de text probe) met een lagere perplexiteit voor de hersenas. Een functie/inhoud as (as 13) toont consistente sturing in TinyLlama, Qwen2-0.5B en GPT-2, met PPL-gematchte corroboratie op tekstniveau. Effecten in laag 4 van TinyLlama zijn groot maar inconsistent, dus behandelen we deze als secundair (Appendix). De asstructuur is stabiel wanneer de atlas opnieuw wordt opgebouwd zonder GPT embedding-veranderingskenmerken of met word2vec embeddings (|r|=0.64-0.95 over gematchte assen), wat circulariteitszorgen vermindert. Explorerende fMRI-verankering suggereert een potentiële alignering voor embedding-verandering en log-frequentie, maar effecten zijn gevoelig voor hemodynamische modelleeraannames en worden enkel als populatieniveau bewijs behandeld. Deze resultaten ondersteunen een nieuwe interface: neurofysiologisch verankerde assen bieden interpreteerbare en bestuurbare handvatten voor LLM-gedrag.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.
PDF12December 24, 2025