ChatPaper.aiChatPaper

대규모 언어 모델의 희소 보상 하위 시스템

Sparse Reward Subsystem in Large Language Models

February 1, 2026
저자: Guowei Xu, Mert Yuksekgonul, James Zou
cs.AI

초록

본 논문에서는 대규모 언어 모델(LLM)의 은닉 상태 내에 희소 보상 하위 시스템이 존재함을 규명하고, 이를 인간 뇌의 생물학적 보상 하위 시스템에 비유합니다. 우리는 이 하위 시스템이 모델의 내부적 상태 가치 기대치를 나타내는 가치 뉴런을 포함하고 있음을 입증하며, 인터벤션 실험을 통해 이러한 뉴런이 추론 과정에 중요함을 확인합니다. 실험 결과, 이러한 가치 뉴런은 다양한 데이터셋, 모델 규모, 아키텍처에 걸쳐 견고하게 존재하며, 동일한 기반 모델에서 미세 조정된 서로 다른 모델과 데이터셋 간에도 높은 전이 가능성을 보입니다. 또한 가치 예측과 실제 보상이 불일치하는 사례를 분석함으로써, 보상 예측 오차(RPE)를 인코딩하는 도파민 뉴런을 보상 하위 시스템 내에서 확인합니다. 이러한 뉴런은 예상보다 보상이 높을 때 높은 활성화를, 낮을 때는 낮은 활성화를 나타냅니다.
English
In this paper, we identify a sparse reward subsystem within the hidden states of Large Language Models (LLMs), drawing an analogy to the biological reward subsystem in the human brain. We demonstrate that this subsystem contains value neurons that represent the model's internal expectation of state value, and through intervention experiments, we establish the importance of these neurons for reasoning. Our experiments reveal that these value neurons are robust across diverse datasets, model scales, and architectures; furthermore, they exhibit significant transferability across different datasets and models fine-tuned from the same base model. By examining cases where value predictions and actual rewards diverge, we identify dopamine neurons within the reward subsystem which encode reward prediction errors (RPE). These neurons exhibit high activation when the reward is higher than expected and low activation when the reward is lower than expected.
PDF82February 7, 2026