RLVER: Verstärkungslernen mit überprüfbaren Emotionsbelohnungen für empathische Agenten
RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents
July 3, 2025
papers.authors: Peisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeichnen sich durch logisches und algorithmisches Denken aus, doch ihre emotionale Intelligenz (EQ) hinkt ihrer kognitiven Leistungsfähigkeit noch weit hinterher. Während das Reinforcement Learning aus überprüfbaren Belohnungen (RLVR) in anderen Bereichen Fortschritte gemacht hat, bleibt seine Anwendung im Dialog – insbesondere für emotionale Intelligenz – weitgehend unerforscht. In dieser Arbeit stellen wir RLVER vor, das erste end-to-end Reinforcement-Learning-Framework, das überprüfbare Emotionsbelohnungen von simulierten Nutzern nutzt, um höhere empathische Fähigkeiten in LLMs zu fördern. Innerhalb dieses Frameworks führen selbstkonsistente, affektive simulierte Nutzer Dialogrollouts durch und erzeugen deterministische Emotionswerte während der Gespräche, die als Belohnungssignale dienen, um das Lernen des LLMs zu steuern. Die Feinabstimmung des öffentlich verfügbaren Qwen2.5-7B-Instruct-Modells mit PPO steigert seinen Sentient-Benchmark-Score von 13,3 auf 79,2, während die mathematischen und Programmierfähigkeiten weitgehend erhalten bleiben. Umfangreiche Experimente zeigen, dass: (i) RLVER konsequent mehrere Dialogfähigkeiten verbessert; (ii) Denkende und nicht-denkende Modelle unterschiedliche Trends aufweisen – denkende Modelle übertreffen in Empathie und Einsicht, während nicht-denkende Modelle eher auf Aktion ausgerichtet sind; (iii) GRPO oft stabile Gewinne erzielt, während PPO bestimmte Fähigkeiten auf ein höheres Niveau bringen kann; (iv) Herausforderndere Umgebungen sind nicht immer besser – moderate Umgebungen können stärkere Ergebnisse liefern. Unsere Ergebnisse zeigen, dass RLVER ein praktischer Weg hin zu emotional intelligenten und breit fähigen Sprachagenten ist.
English
Large language models (LLMs) excel at logical and algorithmic reasoning, yet
their emotional intelligence (EQ) still lags far behind their cognitive
prowess. While reinforcement learning from verifiable rewards (RLVR) has
advanced in other domains, its application to dialogue-especially for emotional
intelligence-remains underexplored. In this work, we introduce RLVER, the first
end-to-end reinforcement learning framework that leverages verifiable emotion
rewards from simulated users to cultivate higher-order empathetic abilities in
LLMs. Within this framework, self-consistent affective simulated users engage
in dialogue rollouts and produce deterministic emotion scores during
conversations, serving as reward signals to guide the LLM's learning.
Fine-tuning publicly available Qwen2.5-7B-Instruct model with PPO boosts its
Sentient-Benchmark score from 13.3 to 79.2 while largely preserving
mathematical and coding competence. Extensive experiments reveal that: (i)
RLVER consistently improves multiple dialogue capabilities; (ii) Thinking and
non-thinking models show distinct trends--thinking models excel in empathy and
insight, while non-thinking models favor action; (iii) GRPO often yields stable
gains, while PPO can push certain capabilities to a higher ceiling; (iv) More
challenging environments are not always better-moderate ones can yield stronger
outcomes. Our results show that RLVER is a practical route toward emotionally
intelligent and broadly capable language agents.