ChatPaper.aiChatPaper

CDE : Exploration Guidée par la Curiosité pour un Apprentissage par Renforcement Efficace dans les Grands Modèles de Langage

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

September 11, 2025
papers.authors: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est un paradigme puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes actuelles de RLVR explorent souvent de manière insuffisante, conduisant à une convergence prématurée et à un effondrement de l'entropie. Pour relever ce défi, nous introduisons l'exploration guidée par la curiosité (CDE), un cadre qui exploite le sens intrinsèque de curiosité du modèle pour orienter l'exploration. Nous formalisons la curiosité à l'aide de signaux provenant à la fois de l'acteur et du critique : pour l'acteur, nous utilisons la perplexité sur sa réponse générée, et pour le critique, nous utilisons la variance des estimations de valeur provenant d'une architecture à têtes multiples. Ces deux signaux servent de bonus d'exploration dans le cadre du RLVR pour guider le modèle. Notre analyse théorique montre que le bonus lié à l'acteur pénalise intrinsèquement les erreurs de surconfiance et favorise la diversité parmi les réponses correctes ; de plus, nous relions le bonus lié au critique au bonus d'exploration basé sur le comptage bien établi en apprentissage par renforcement. Empiriquement, notre méthode obtient une amélioration d'environ +3 points par rapport au RLVR standard utilisant GRPO/PPO sur les benchmarks AIME. Une analyse plus approfondie identifie un mécanisme d'effondrement de la calibration au sein du RLVR, éclairant les modes de défaillance courants des LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.
PDF181September 12, 2025