RLVER : Apprentissage par Renforcement avec Récompenses Émotionnelles Vérifiables pour des Agents Empathiques
RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents
July 3, 2025
papers.authors: Peisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI
papers.abstract
Les grands modèles de langage (LLM) excellent dans le raisonnement logique et algorithmique, mais leur intelligence émotionnelle (QE) reste bien en deçà de leurs prouesses cognitives. Bien que l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) ait progressé dans d'autres domaines, son application au dialogue—en particulier pour l'intelligence émotionnelle—reste peu explorée. Dans ce travail, nous introduisons RLVER, le premier cadre d'apprentissage par renforcement de bout en bout qui exploite des récompenses émotionnelles vérifiables provenant d'utilisateurs simulés pour cultiver des capacités empathiques de haut niveau dans les LLM. Dans ce cadre, des utilisateurs simulés affectivement cohérents s'engagent dans des déroulements de dialogue et produisent des scores émotionnels déterministes pendant les conversations, servant de signaux de récompense pour guider l'apprentissage du LLM. Le fine-tuning du modèle Qwen2.5-7B-Instruct, disponible publiquement, avec PPO augmente son score au Sentient-Benchmark de 13,3 à 79,2 tout en préservant largement ses compétences en mathématiques et en codage. Des expériences approfondies révèlent que : (i) RLVER améliore systématiquement plusieurs capacités de dialogue ; (ii) Les modèles pensants et non-pensants montrent des tendances distinctes—les modèles pensants excellent en empathie et en perspicacité, tandis que les modèles non-pensants privilégient l'action ; (iii) GRPO offre souvent des gains stables, tandis que PPO peut pousser certaines capacités à un niveau supérieur ; (iv) Les environnements plus difficiles ne sont pas toujours meilleurs—des environnements modérés peuvent produire des résultats plus solides. Nos résultats montrent que RLVER est une voie pratique vers des agents linguistiques émotionnellement intelligents et globalement compétents.
English
Large language models (LLMs) excel at logical and algorithmic reasoning, yet
their emotional intelligence (EQ) still lags far behind their cognitive
prowess. While reinforcement learning from verifiable rewards (RLVR) has
advanced in other domains, its application to dialogue-especially for emotional
intelligence-remains underexplored. In this work, we introduce RLVER, the first
end-to-end reinforcement learning framework that leverages verifiable emotion
rewards from simulated users to cultivate higher-order empathetic abilities in
LLMs. Within this framework, self-consistent affective simulated users engage
in dialogue rollouts and produce deterministic emotion scores during
conversations, serving as reward signals to guide the LLM's learning.
Fine-tuning publicly available Qwen2.5-7B-Instruct model with PPO boosts its
Sentient-Benchmark score from 13.3 to 79.2 while largely preserving
mathematical and coding competence. Extensive experiments reveal that: (i)
RLVER consistently improves multiple dialogue capabilities; (ii) Thinking and
non-thinking models show distinct trends--thinking models excel in empathy and
insight, while non-thinking models favor action; (iii) GRPO often yields stable
gains, while PPO can push certain capabilities to a higher ceiling; (iv) More
challenging environments are not always better-moderate ones can yield stronger
outcomes. Our results show that RLVER is a practical route toward emotionally
intelligent and broadly capable language agents.