Axes ancrés dans le cerveau pour la lecture et la direction des états des LLM
Brain-Grounded Axes for Reading and Steering LLM States
December 22, 2025
papers.authors: Sandro Andric
cs.AI
papers.abstract
Les méthodes d'interprétabilité des grands modèles de langage (LLM) dérivent généralement des directions à partir de supervisions textuelles, ce qui peut manquer d'ancrage externe. Nous proposons d'utiliser l'activité cérébrale humaine non pas comme signal d'apprentissage, mais comme système de coordonnées pour lire et piloter les états des LLM. En utilisant le jeu de données SMN4Lang MEG, nous construisons un atlas cérébral au niveau du mot des motifs de valeur de verrouillage de phase (PLV) et extrayons des axes latents via l'ACI. Nous validons les axes avec des lexiques indépendants et des étiquettes basées sur la REC (POS/log-fréquence utilisées comme contrôles de cohérence), puis nous entraînons des adaptateurs légers qui mappent les états cachés des LLM vers ces axes cérébraux sans fine-tuning du LLM. Le pilotage le long des directions dérivées du cerveau produit un axe lexical robuste (lié à la fréquence) dans une couche intermédiaire de TinyLlama, qui résiste à des contrôles appariés en perplexité, et une comparaison par sonde cerveau-vs-texte montre des décalages de log-fréquence plus importants (relativement à la sonde texte) avec une perplexité plus faible pour l'axe cérébral. Un axe fonction/contenu (axe 13) montre un pilotage cohérent dans TinyLlama, Qwen2-0.5B et GPT-2, avec une corroboration au niveau texte appariée en PPL. Les effets dans la couche 4 de TinyLlama sont importants mais inconstants, nous les considérons donc comme secondaires (Annexe). La structure des axes est stable lorsque l'atlas est reconstruit sans les caractéristiques de changement d'embedding GPT ou avec des embeddings word2vec (|r|=0.64-0.95 entre axes appariés), réduisant les préoccupations de circularité. Un ancrage exploratoire par IRMf suggère un alignement potentiel pour le changement d'embedding et la log-fréquence, mais les effets sont sensibles aux hypothèses de modélisation hémodynamique et sont traités uniquement comme preuve au niveau populationnel. Ces résultats soutiennent une nouvelle interface : des axes fondés sur la neurophysiologie fournissent des poignées interprétables et contrôlables pour le comportement des LLM.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.