Sparsbelohnungs-Subsystem in großen Sprachmodellen
Sparse Reward Subsystem in Large Language Models
February 1, 2026
papers.authors: Guowei Xu, Mert Yuksekgonul, James Zou
cs.AI
papers.abstract
In dieser Arbeit identifizieren wir ein spärliches Belohnungssubsystem innerhalb der verborgenen Zustände von Large Language Models (LLMs) und ziehen eine Analogie zum biologischen Belohnungssubsystem im menschlichen Gehirn. Wir zeigen, dass dieses Subsystem Wertneuronen enthält, die die interne Erwartung des Zustandswerts des Modells repräsentieren, und durch Interventionsexperimente belegen wir die Bedeutung dieser Neuronen für das Schlussfolgern. Unsere Experimente zeigen, dass diese Wertneuronen robust über verschiedene Datensätze, Modellgrößen und Architekturen hinweg sind; darüber hinaus weisen sie eine signifikante Übertragbarkeit über verschiedene Datensätze und Modelle hinweg auf, die aus demselben Basismodell feinabgestimmt wurden. Durch die Untersuchung von Fällen, in denen die Wertvorhersagen und die tatsächlichen Belohnungen voneinander abweichen, identifizieren wir Dopaminneuronen innerhalb des Belohnungssubsystems, die Belohnungsvorhersagefehler (RPE) kodieren. Diese Neuronen zeigen eine hohe Aktivierung, wenn die Belohnung höher als erwartet ausfällt, und eine niedrige Aktivierung, wenn die Belohnung niedriger als erwartet ausfällt.
English
In this paper, we identify a sparse reward subsystem within the hidden states of Large Language Models (LLMs), drawing an analogy to the biological reward subsystem in the human brain. We demonstrate that this subsystem contains value neurons that represent the model's internal expectation of state value, and through intervention experiments, we establish the importance of these neurons for reasoning. Our experiments reveal that these value neurons are robust across diverse datasets, model scales, and architectures; furthermore, they exhibit significant transferability across different datasets and models fine-tuned from the same base model. By examining cases where value predictions and actual rewards diverge, we identify dopamine neurons within the reward subsystem which encode reward prediction errors (RPE). These neurons exhibit high activation when the reward is higher than expected and low activation when the reward is lower than expected.