CDE: 대규모 언어 모델을 위한 효율적인 강화 학습을 위한 호기심 주도 탐색
CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
September 11, 2025
저자: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 강력한 패러다임입니다. 그러나 현재의 RLVR 방법들은 종종 탐색이 미흡하여 조기 수렴과 엔트로피 붕괴를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 모델 자체의 내재적 호기심을 활용하여 탐색을 유도하는 호기심 주도 탐색(Curiosity-Driven Exploration, CDE) 프레임워크를 제안합니다. 우리는 호기심을 행위자(actor)와 평가자(critic)로부터의 신호로 형식화합니다: 행위자의 경우 생성된 응답에 대한 혼란도(perplexity)를 사용하고, 평가자의 경우 다중 헤드 아키텍처에서의 가치 추정치 분산을 사용합니다. 이 두 신호는 RLVR 프레임워크 내에서 탐색 보너스로 작용하여 모델을 안내합니다. 우리의 이론적 분석은 행위자 측 보너스가 과도한 자신감으로 인한 오류를 자연스럽게 억제하고 올바른 응답 간의 다양성을 촉진함을 보여줍니다. 또한, 평가자 측 보너스는 강화 학습에서 잘 정립된 카운트 기반 탐색 보너스와 연결됩니다. 실험적으로, 우리의 방법은 AIME 벤치마크에서 GRPO/PPO를 사용한 표준 RLVR 대비 약 3점의 성능 향상을 달성했습니다. 추가 분석을 통해 RLVR 내의 보정 붕괴(calibration collapse) 메커니즘을 확인함으로써, LLM의 일반적인 실패 모드에 대한 통찰을 제공합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm
for enhancing the reasoning ability of Large Language Models (LLMs). Yet
current RLVR methods often explore poorly, leading to premature convergence and
entropy collapse. To address this challenge, we introduce Curiosity-Driven
Exploration (CDE), a framework that leverages the model's own intrinsic sense
of curiosity to guide exploration. We formalize curiosity with signals from
both the actor and the critic: for the actor, we use perplexity over its
generated response, and for the critic, we use the variance of value estimates
from a multi-head architecture. Both signals serve as an exploration bonus
within the RLVR framework to guide the model. Our theoretical analysis shows
that the actor-wise bonus inherently penalizes overconfident errors and
promotes diversity among correct responses; moreover, we connect the
critic-wise bonus to the well-established count-based exploration bonus in RL.
Empirically, our method achieves an approximate +3 point improvement over
standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a
calibration collapse mechanism within RLVR, shedding light on common LLM
failure modes.