Мозговые оси для чтения и управления состояниями больших языковых моделей
Brain-Grounded Axes for Reading and Steering LLM States
December 22, 2025
Авторы: Sandro Andric
cs.AI
Аннотация
Методы интерпретируемости больших языковых моделей (БЯМ) обычно выводят направления на основе текстовой разметки, что может быть лишено внешнего обоснования. Мы предлагаем использовать активность человеческого мозга не как обучающий сигнал, а как систему координат для чтения и управления состояниями БЯМ. Используя набор данных SMN4Lang MEG, мы строим пословный мозговой атлас паттернов фазо-синхронизационной связи (Phase-Locking Value, PLV) и извлекаем скрытые оси с помощью ICA. Мы валидируем оси с помощью независимых лексиконов и меток на основе NER (части речи/логарифмическая частота используются для проверки адекватности), затем обучаем легковесные адаптеры, которые отображают скрытые состояния БЯМ на эти мозговые оси без дообучения самой модели. Управление вдоль полученных мозговых направлений выявляет устойчивую лексическую ось (связанную с частотой) в среднем слое TinyLlama, которая сохраняется при контроле по перплексии, а сравнение мозгового и текстового проб показывает большие сдвиги по логарифмической частоте (относительно текстового проба) при меньшей перплексии для мозговой оси. Ось функция/содержание (ось 13) демонстрирует последовательное управление в TinyLlama, Qwen2-0.5B и GPT-2, с подтверждением на текстовом уровне при сопоставимой перплексии. Эффекты в 4-м слое TinyLlama значительны, но нестабильны, поэтому мы рассматриваем их как вторичные (Приложение). Структура осей стабильна при перестроении атласа без признаков изменения эмбеддингов GPT или с эмбеддингами word2vec (|r|=0.64–0.95 для сопоставимых осей), что снижает опасения циклической зависимости. Предварительная привязка к fMRI данных предполагает потенциальное соответствие для изменения эмбеддингов и логарифмической частоты, но эффекты чувствительны к предположениям гемодинамического моделирования и рассматриваются лишь как доказательство на уровне популяции. Эти результаты подтверждают новый интерфейс: нейрофизиологически обоснованные оси предоставляют интерпретируемые и управляемые рычаги для воздействия на поведение БЯМ.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.