ChatPaper.aiChatPaper

Ejes Fundamentados en el Cerebro para la Lectura y Dirección de Estados de LLM

Brain-Grounded Axes for Reading and Steering LLM States

December 22, 2025
Autores: Sandro Andric
cs.AI

Resumen

Los métodos de interpretabilidad para modelos de lenguaje grandes (LLM) suelen derivar direcciones a partir de supervisión textual, lo que puede carecer de una base externa. Proponemos utilizar la actividad cerebral humana no como señal de entrenamiento, sino como un sistema de coordenadas para leer y dirigir los estados de los LLM. Utilizando el conjunto de datos SMN4Lang MEG, construimos un atlas cerebral a nivel de palabra de patrones de valor de bloqueo de fase (PLV) y extraemos ejes latentes mediante ICA. Validamos los ejes con léxicos independientes y etiquetas basadas en NER (usando POS/frecuencia-logarítmica como controles de verificación), luego entrenamos adaptadores ligeros que mapean los estados ocultos del LLM a estos ejes cerebrales sin ajustar finamente el LLM. Dirigir a lo largo de las direcciones derivadas del cerebro produce un eje léxico robusto (vinculado a la frecuencia) en una capa media de TinyLlama, que sobrevive a controles emparejados por perplejidad, y una comparación de sonda cerebro-vs-texto muestra mayores cambios en la frecuencia logarítmica (relativos a la sonda de texto) con menor perplejidad para el eje cerebral. Un eje función/contenido (eje 13) muestra una dirección consistente en TinyLlama, Qwen2-0.5B y GPT-2, con corroboración a nivel de texto emparejada por PPL. Los efectos en la capa 4 de TinyLlama son grandes pero inconsistentes, por lo que los tratamos como secundarios (Apéndice). La estructura del eje es estable cuando el atlas se reconstruye sin las características de cambio de incrustación de GPT o con incrustaciones de word2vec (|r|=0.64-0.95 entre ejes emparejados), reduciendo preocupaciones de circularidad. El anclaje exploratorio con fMRI sugiere una alineación potencial para el cambio de incrustación y la frecuencia logarítmica, pero los efectos son sensibles a los supuestos del modelado hemodinámico y se tratan únicamente como evidencia a nivel de población. Estos resultados respaldan una nueva interfaz: los ejes basados en neurofisiología proporcionan mecanismos interpretables y controlables para el comportamiento de los LLM.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.
PDF12December 24, 2025