ChatPaper.aiChatPaper

CDE: Любопытство-ориентированное исследование для эффективного обучения с подкреплением в крупных языковых моделях

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

September 11, 2025
Авторы: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой мощный подход для повышения способности к рассуждению у крупных языковых моделей (LLM). Однако современные методы RLVR часто демонстрируют слабую исследовательскую активность, что приводит к преждевременной сходимости и коллапсу энтропии. Для решения этой проблемы мы представляем Curiosity-Driven Exploration (CDE) — фреймворк, который использует внутреннее чувство любопытства модели для управления исследованием. Мы формализуем любопытство с помощью сигналов как от актора, так и от критика: для актора мы используем перплексию над сгенерированным ответом, а для критика — дисперсию оценок значений из архитектуры с несколькими головами. Оба сигнала служат бонусом для исследования в рамках RLVR, направляя модель. Наш теоретический анализ показывает, что бонус для актора по своей природе штрафует излишне уверенные ошибки и способствует разнообразию среди правильных ответов; более того, мы связываем бонус для критика с хорошо известным бонусом для исследования на основе подсчета в обучении с подкреплением. Эмпирически наш метод демонстрирует улучшение примерно на +3 балла по сравнению со стандартным RLVR с использованием GRPO/PPO на бенчмарках AIME. Дополнительный анализ выявляет механизм коллапса калибровки в RLVR, проливая свет на типичные режимы сбоя LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.
PDF181September 12, 2025