CDE: Nieuwsgierigheid-Gedreven Exploratie voor Efficiënte Reinforcement Learning in Grote Taalmodellen
CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
September 11, 2025
Auteurs: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtig paradigma voor het verbeteren van het redeneervermogen van Large Language Models (LLMs). Toch verkennen huidige RLVR-methoden vaak onvoldoende, wat leidt tot vroegtijdige convergentie en entropie-instorting. Om deze uitdaging aan te pakken, introduceren we Curiosity-Driven Exploration (CDE), een raamwerk dat gebruikmaakt van het intrinsieke gevoel van nieuwsgierigheid van het model om de verkenning te sturen. We formaliseren nieuwsgierigheid met signalen van zowel de actor als de critic: voor de actor gebruiken we de perplexiteit over het gegenereerde antwoord, en voor de critic gebruiken we de variantie van waardeschattingen uit een multi-head architectuur. Beide signalen dienen als een verkenningbonus binnen het RLVR-raamwerk om het model te sturen. Onze theoretische analyse toont aan dat de actor-gerichte bonus inherent overmoedige fouten bestraft en diversiteit onder correcte antwoorden bevordert; bovendien verbinden we de critic-gerichte bonus met de goed ingeburgerde count-based verkenningbonus in RL. Empirisch behaalt onze methode een geschatte verbetering van +3 punten ten opzichte van standaard RLVR met GRPO/PPO op AIME-benchmarks. Verdere analyse identificeert een calibratie-instortingsmechanisme binnen RLVR, wat inzicht geeft in veelvoorkomende foutmodi van LLMs.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm
for enhancing the reasoning ability of Large Language Models (LLMs). Yet
current RLVR methods often explore poorly, leading to premature convergence and
entropy collapse. To address this challenge, we introduce Curiosity-Driven
Exploration (CDE), a framework that leverages the model's own intrinsic sense
of curiosity to guide exploration. We formalize curiosity with signals from
both the actor and the critic: for the actor, we use perplexity over its
generated response, and for the critic, we use the variance of value estimates
from a multi-head architecture. Both signals serve as an exploration bonus
within the RLVR framework to guide the model. Our theoretical analysis shows
that the actor-wise bonus inherently penalizes overconfident errors and
promotes diversity among correct responses; moreover, we connect the
critic-wise bonus to the well-established count-based exploration bonus in RL.
Empirically, our method achieves an approximate +3 point improvement over
standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a
calibration collapse mechanism within RLVR, shedding light on common LLM
failure modes.