RLVER : Apprentissage par Renforcement avec Récompenses Émotionnelles Vérifiables pour des Agents Empathiques

papers.abstract

Les grands modèles de langage (LLM) excellent dans le raisonnement logique et algorithmique, mais leur intelligence émotionnelle (QE) reste bien en deçà de leurs prouesses cognitives. Bien que l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) ait progressé dans d'autres domaines, son application au dialogue—en particulier pour l'intelligence émotionnelle—reste peu explorée. Dans ce travail, nous introduisons RLVER, le premier cadre d'apprentissage par renforcement de bout en bout qui exploite des récompenses émotionnelles vérifiables provenant d'utilisateurs simulés pour cultiver des capacités empathiques de haut niveau dans les LLM. Dans ce cadre, des utilisateurs simulés affectivement cohérents s'engagent dans des déroulements de dialogue et produisent des scores émotionnels déterministes pendant les conversations, servant de signaux de récompense pour guider l'apprentissage du LLM. Le fine-tuning du modèle Qwen2.5-7B-Instruct, disponible publiquement, avec PPO augmente son score au Sentient-Benchmark de 13,3 à 79,2 tout en préservant largement ses compétences en mathématiques et en codage. Des expériences approfondies révèlent que : (i) RLVER améliore systématiquement plusieurs capacités de dialogue ; (ii) Les modèles pensants et non-pensants montrent des tendances distinctes—les modèles pensants excellent en empathie et en perspicacité, tandis que les modèles non-pensants privilégient l'action ; (iii) GRPO offre souvent des gains stables, tandis que PPO peut pousser certaines capacités à un niveau supérieur ; (iv) Les environnements plus difficiles ne sont pas toujours meilleurs—des environnements modérés peuvent produire des résultats plus solides. Nos résultats montrent que RLVER est une voie pratique vers des agents linguistiques émotionnellement intelligents et globalement compétents.

English

Large language models (LLMs) excel at logical and algorithmic reasoning, yet their emotional intelligence (EQ) still lags far behind their cognitive prowess. While reinforcement learning from verifiable rewards (RLVR) has advanced in other domains, its application to dialogue-especially for emotional intelligence-remains underexplored. In this work, we introduce RLVER, the first end-to-end reinforcement learning framework that leverages verifiable emotion rewards from simulated users to cultivate higher-order empathetic abilities in LLMs. Within this framework, self-consistent affective simulated users engage in dialogue rollouts and produce deterministic emotion scores during conversations, serving as reward signals to guide the LLM's learning. Fine-tuning publicly available Qwen2.5-7B-Instruct model with PPO boosts its Sentient-Benchmark score from 13.3 to 79.2 while largely preserving mathematical and coding competence. Extensive experiments reveal that: (i) RLVER consistently improves multiple dialogue capabilities; (ii) Thinking and non-thinking models show distinct trends--thinking models excel in empathy and insight, while non-thinking models favor action; (iii) GRPO often yields stable gains, while PPO can push certain capabilities to a higher ceiling; (iv) More challenging environments are not always better-moderate ones can yield stronger outcomes. Our results show that RLVER is a practical route toward emotionally intelligent and broadly capable language agents.

RLVER : Apprentissage par Renforcement avec Récompenses Émotionnelles Vérifiables pour des Agents Empathiques

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

papers.abstract

Support