ChatPaper.aiChatPaper

뇌 기반 축을 활용한 LLM 상태 읽기 및 조향

Brain-Grounded Axes for Reading and Steering LLM States

December 22, 2025
저자: Sandro Andric
cs.AI

초록

대규모 언어 모델(LLM)의 해석 가능성 방법은 일반적으로 외부 근거가 부족할 수 있는 텍스트 기반 지도(supervision)에서 방향성을 도출한다. 우리는 인간 뇌 활동을 훈련 신호가 아닌 LLM 상태를 읽고 조종(steering)하기 위한 좌표계로 사용하는 것을 제안한다. SMN4Lang MEG 데이터셋을 이용해 위상 동기화 값(PLV) 패턴의 단어 수준 뇌 아틀라스를 구축하고 ICA를 통해 잠재 축을 추출한다. 독립적인 어휘 목록(lexica)과 NER 기반 레이블(POS/로그 주파수는 정성 검증용으로 사용)로 축을 검증한 후, LLM을 미세 조정하지 않고 LLM 은닉 상태를 이러한 뇌 축에 매핑하는 경량 어댑터를 훈련시킨다. 결과적으로 도출된 뇌 기반 방향을 따라 조종하면 TinyLlama 중간 계층에서 강력한 어휘적(주파수 연관) 축이 나타나며, 이는 perplexity가匹配된 대조군에서도 유지된다. 뇌 대 텍스트 프로브 비교에서는 뇌 축에서 텍스트 프로브에 비해 더 큰 로그 주파수 변화와 더 낮은 perplexity를 보인다. 기능/내용 축(축 13)은 TinyLlama, Qwen2-0.5B, GPT-2에서 일관된 조종 효과를 보이며, PPL이匹配된 텍스트 수준의 입증을 얻는다. TinyLlama의 4번째 계층 효과는 크지만 불일치하여 이차적인 것으로 간주한다(부록). 아틀라스를 GPT 임베딩 변화 특징 없이 또는 word2vec 임베딩으로 재구성할 때 축 구조는 안정적이며(匹配된 축 간 |r|=0.64-0.95), 순환성 문제를 줄여준다. 탐색적 fMRI 기반 고정(anchoring)은 임베딩 변화와 로그 주파수에 대한 잠재적 정렬 가능성을 시사하지만, 효과는 혈역학적 모델링 가정에 민감하여 집단 수준 증거로만 간주한다. 이러한 결과는 새로운 인터페이스를 지지한다: 신경생리학에 기반한 축은 LLM 행동에 대한 해석 가능하고 제어 가능한 핸들을 제공한다.
English
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.
PDF12December 24, 2025