ChatPaper.aiChatPaper

大規模言語モデルにおける疎な報酬サブシステム

Sparse Reward Subsystem in Large Language Models

February 1, 2026
著者: Guowei Xu, Mert Yuksekgonul, James Zou
cs.AI

要旨

本論文では、大規模言語モデル(LLM)の隠れ状態内に、生物学的なヒト脳の報酬サブシステムとのアナロジーにより、スパースな報酬サブシステムが存在することを明らかにする。我々は、このサブシステムがモデルの内部的な状態価値期待を表現する価値ニューロンを含むことを実証し、介入実験を通じて、これらのニューロンが推論において重要であることを立証する。実験結果から、これらの価値ニューロンは多様なデータセット、モデル規模、アーキテクチャにわたって頑健であることが明らかとなった。さらに、同一の基本モデルからファインチューニングされた異なるデータセットやモデル間で顕著な転移性を示す。価値予測と実際の報酬が乖離する事例を検証することにより、我々は報酬サブシステム内に報酬予測誤差(RPE)を符号化するドーパミンニューロンを同定する。これらのニューロンは、報酬が期待値を上回る場合に高い活性化を示し、報酬が期待値を下回る場合に低い活性化を示す。
English
In this paper, we identify a sparse reward subsystem within the hidden states of Large Language Models (LLMs), drawing an analogy to the biological reward subsystem in the human brain. We demonstrate that this subsystem contains value neurons that represent the model's internal expectation of state value, and through intervention experiments, we establish the importance of these neurons for reasoning. Our experiments reveal that these value neurons are robust across diverse datasets, model scales, and architectures; furthermore, they exhibit significant transferability across different datasets and models fine-tuned from the same base model. By examining cases where value predictions and actual rewards diverge, we identify dopamine neurons within the reward subsystem which encode reward prediction errors (RPE). These neurons exhibit high activation when the reward is higher than expected and low activation when the reward is lower than expected.
PDF82February 7, 2026