ChatPaper.aiChatPaper

CDE: Esplorazione Guidata dalla Curiosità per un Apprendimento per Rinforzo Efficiente nei Modelli Linguistici di Grande Scala

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

September 11, 2025
Autori: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è un paradigma potente per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLMs). Tuttavia, i metodi RLVR attuali spesso esplorano in modo insufficiente, portando a una convergenza prematura e al collasso dell'entropia. Per affrontare questa sfida, introduciamo l'Esplorazione Guidata dalla Curiosità (CDE), un framework che sfrutta il senso intrinseco di curiosità del modello per guidare l'esplorazione. Formalizziamo la curiosità utilizzando segnali sia dall'attore che dal critico: per l'attore, utilizziamo la perplessità rispetto alla risposta generata, mentre per il critico, utilizziamo la varianza delle stime di valore provenienti da un'architettura multi-testina. Entrambi i segnali fungono da bonus di esplorazione all'interno del framework RLVR per guidare il modello. La nostra analisi teorica dimostra che il bonus relativo all'attore penalizza intrinsecamente gli errori di eccessiva sicurezza e promuove la diversità tra le risposte corrette; inoltre, colleghiamo il bonus relativo al critico al ben noto bonus di esplorazione basato sul conteggio nel RL. Empiricamente, il nostro metodo ottiene un miglioramento approssimativo di +3 punti rispetto allo standard RLVR utilizzando GRPO/PPO sui benchmark AIME. Un'ulteriore analisi identifica un meccanismo di collasso della calibrazione all'interno di RLVR, gettando luce sui comuni modi di fallimento degli LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.
PDF181September 12, 2025