CDE: Exploração Guiada por Curiosidade para Aprendizado por Reforço Eficiente em Modelos de Linguagem de Grande Escala
CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
September 11, 2025
Autores: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI
Resumo
Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é um paradigma poderoso para aprimorar a capacidade de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). No entanto, os métodos atuais de RLVR frequentemente exploram de forma inadequada, levando a convergência prematura e colapso de entropia. Para enfrentar esse desafio, introduzimos a Exploração Guiada por Curiosidade (CDE), uma estrutura que aproveita o senso intrínseco de curiosidade do próprio modelo para orientar a exploração. Formalizamos a curiosidade com sinais tanto do ator quanto do crítico: para o ator, utilizamos a perplexidade sobre sua resposta gerada, e para o crítico, usamos a variância das estimativas de valor de uma arquitetura multi-cabeça. Ambos os sinais servem como um bônus de exploração dentro da estrutura RLVR para guiar o modelo. Nossa análise teórica mostra que o bônus relacionado ao ator penaliza inerentemente erros excessivamente confiantes e promove a diversidade entre respostas corretas; além disso, conectamos o bônus relacionado ao crítico ao bem-estabelecido bônus de exploração baseado em contagem no Aprendizado por Reforço. Empiricamente, nosso método alcança uma melhoria aproximada de +3 pontos em relação ao RLVR padrão usando GRPO/PPO em benchmarks AIME. Uma análise adicional identifica um mecanismo de colapso de calibração dentro do RLVR, lançando luz sobre modos comuns de falha em LLMs.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm
for enhancing the reasoning ability of Large Language Models (LLMs). Yet
current RLVR methods often explore poorly, leading to premature convergence and
entropy collapse. To address this challenge, we introduce Curiosity-Driven
Exploration (CDE), a framework that leverages the model's own intrinsic sense
of curiosity to guide exploration. We formalize curiosity with signals from
both the actor and the critic: for the actor, we use perplexity over its
generated response, and for the critic, we use the variance of value estimates
from a multi-head architecture. Both signals serve as an exploration bonus
within the RLVR framework to guide the model. Our theoretical analysis shows
that the actor-wise bonus inherently penalizes overconfident errors and
promotes diversity among correct responses; moreover, we connect the
critic-wise bonus to the well-established count-based exploration bonus in RL.
Empirically, our method achieves an approximate +3 point improvement over
standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a
calibration collapse mechanism within RLVR, shedding light on common LLM
failure modes.