Assi Radicati nel Cervello per la Lettura e la Guida degli Stati dei Modelli Linguistici di Grande Dimensione
Brain-Grounded Axes for Reading and Steering LLM States
December 22, 2025
Autori: Sandro Andric
cs.AI
Abstract
I metodi di interpretabilità per i grandi modelli linguistici (LLM) derivano tipicamente le direzioni da supervisione testuale, che può mancare di ancoraggio esterno. Proponiamo di utilizzare l'attività cerebrale umana non come segnale di addestramento, ma come sistema di coordinate per leggere e orientare gli stati degli LLM. Utilizzando il dataset SMN4Lang MEG, costruiamo un atlante cerebrale a livello di parola dei modelli di valore di phase-locking (PLV) ed estraiamo assi latenti tramite ICA. Convalidiamo gli assi con lessici indipendenti ed etichette basate su NER (POS/frequenza-log usate come controlli di verifica), addestrando poi adattatori leggeri che mappano gli stati nascosti degli LLM su questi assi cerebrali senza fine-tuning del modello. L'orientamento lungo le direzioni derivate dal cervello produce un asse lessicale robusto (legato alla frequenza) in uno strato intermedio di TinyLlama, che sopravvive a controlli con perplexity abbinata, e un confronto tra sonda cerebrale e testuale mostra spostamenti maggiori nella frequenza-log (relativi alla sonda testuale) con perplexity inferiore per l'asse cerebrale. Un asse funzione/contenuto (asse 13) mostra un orientamento coerente in TinyLlama, Qwen2-0.5B e GPT-2, con corroborazione a livello testuale abbinata per PPL. Gli effetti nello strato 4 di TinyLlama sono ampi ma inconsistenti, quindi li consideriamo secondari (Appendice). La struttura dell'asse è stabile quando l'atlante viene ricostruito senza le feature di variazione degli embedding GPT o con embedding word2vec (|r|=0.64-0.95 tra assi abbinati), riducendo i problemi di circolarità. Un ancoraggio esplorativo con fMRI suggerisce un potenziale allineamento per la variazione degli embedding e la frequenza-log, ma gli effetti sono sensibili alle assunzioni di modellazione emodinamica e sono considerati solo come evidenza a livello di popolazione. Questi risultati supportano una nuova interfaccia: assi basati sulla neurofisiologia forniscono maniglie interpretabili e controllabili per il comportamento degli LLM.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.