ChatPaper.aiChatPaper

CDE: Neugiergetriebene Exploration für effizientes Reinforcement Learning in großen Sprachmodellen

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

September 11, 2025
papers.authors: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI

papers.abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist ein leistungsstarkes Paradigma zur Verbesserung der Fähigkeit von Large Language Models (LLMs) zum logischen Schlussfolgern. Dennoch erkunden aktuelle RLVR-Methoden oft unzureichend, was zu vorzeitiger Konvergenz und Entropiekollaps führt. Um diese Herausforderung zu bewältigen, führen wir Curiosity-Driven Exploration (CDE) ein, ein Framework, das das intrinsische Neugiergefühl des Modells nutzt, um die Exploration zu steuern. Wir formalisieren Neugier mit Signalen sowohl des Aktors als auch des Kritikers: Für den Aktor verwenden wir die Perplexität über seine generierte Antwort, und für den Kritiker nutzen wir die Varianz von Wertschätzungen aus einer Multi-Head-Architektur. Beide Signale dienen als Explorationsbonus innerhalb des RLVR-Frameworks, um das Modell zu leiten. Unsere theoretische Analyse zeigt, dass der Akteur-basierte Bonus inhärent übermäßig selbstsichere Fehler bestraft und die Vielfalt unter korrekten Antworten fördert; darüber hinaus verbinden wir den Kritiker-basierten Bonus mit dem etablierten zählbasierten Explorationsbonus in RL. Empirisch erzielt unsere Methode eine Verbesserung von etwa +3 Punkten gegenüber dem Standard-RLVR mit GRPO/PPO auf AIME-Benchmarks. Eine weitere Analyse identifiziert einen Kalibrierungskollaps-Mechanismus innerhalb von RLVR, der Einblicke in häufige Fehlermodi von LLMs bietet.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.
PDF181September 12, 2025