Eixos Fundamentados no Cérebro para Leitura e Direcionamento de Estados de LLM

Resumo

Os métodos de interpretabilidade para modelos de linguagem de grande escala (LLMs) geralmente derivam direções a partir de supervisão textual, o que pode carecer de fundamentação externa. Propomos usar a atividade cerebral humana não como um sinal de treinamento, mas como um sistema de coordenadas para ler e direcionar os estados dos LLMs. Utilizando o conjunto de dados SMN4Lang MEG, construímos um atlas cerebral em nível de palavra de padrões de valor de faseamento (PLV) e extraímos eixos latentes via ICA. Validamos os eixos com léxicos independentes e etiquetas baseadas em NER (POS/frequência logarítmica usadas como verificações de sanidade), depois treinamos adaptadores leves que mapeiam os estados ocultos do LLM para esses eixos cerebrais sem ajustar o LLM. O direcionamento ao longo das direções derivadas do cérebro resulta em um eixo lexical robusto (ligado à frequência) em uma camada intermediária do TinyLlama, sobrevivendo a controles pareados por perplexidade, e uma comparação de sonda cérebro-vs-texto mostra maiores desvios de frequência logarítmica (em relação à sonda de texto) com menor perplexidade para o eixo cerebral. Um eixo função/conteúdo (eixo 13) mostra direcionamento consistente no TinyLlama, Qwen2-0.5B e GPT-2, com corroboração em nível de texto pareada por PPL. Os efeitos na camada 4 do TinyLlama são grandes, mas inconsistentes, portanto, nós os tratamos como secundários (Apêndice). A estrutura do eixo é estável quando o atlas é reconstruído sem características de mudança de incorporação do GPT ou com incorporações word2vec (|r|=0.64-0.95 entre eixos pareados), reduzindo preocupações de circularidade. A ancoragem exploratória com fMRI sugere um alinhamento potencial para mudança de incorporação e frequência logarítmica, mas os efeitos são sensíveis a pressupostos de modelagem hemodinâmica e são tratados apenas como evidência em nível populacional. Estes resultados suportam uma nova interface: eixos fundamentados em neurofisiologia fornecem alavancas interpretáveis e controláveis para o comportamento dos LLMs.

English

Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.

Eixos Fundamentados no Cérebro para Leitura e Direcionamento de Estados de LLM

Brain-Grounded Axes for Reading and Steering LLM States

Resumo

Support