탐험 대 활용: 클리핑, 엔트로피, 그리고 허위 보상을 통한 RLVR 재고
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
December 18, 2025
저자: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI
초록
본 논문은 검증 가능한 보상을 활용한 강화 학습(RLVR)에서의 탐사-활용 상충관계를 분석하며, 이 프레임워크가 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방식을 탐구한다. 최근 연구에 따르면 RLVR은 두 가지 상반되어 보이는 메커니즘을 통해 LLM의 강력한 수학적 추론 능력을 이끌어낼 수 있다: 실제 정답과 무관한 결과에 보상을 제공하여 활용을 억제하는 '허위 보상'과, 모델을 더 확신에 찬 결정론적 출력으로 유도하여 탐사를 억제하는 '엔트로피 최소화'가 그것으로, 이는 다음과 같은 난해한 역학을 부각시킨다. 즉, 활용을 억제하는 것과 탐사를 억제하는 것이 모두 추론 성능을 향상시키는데, 이러한 효과들을 조화시키는 근본 원리는 여전히 제대로 이해되지 않고 있다. 우리는 두 가지 근본적인 질문에 집중한다: (i) 정책 엔트로피가 성능과 어떻게 관련되는지, 그리고 (ii) 허위 보상이 클리핑 편향과 모델 오염의 상호작용을 통해 실제로 이득을 발생시키는지 여부이다. 우리의 결과는 허위 보상 하에서 클리핑 편향이 정책 엔트로피를 감소시켜 더 확신에 찬 결정론적 출력을 이끌어내는 반면, 엔트로피 최소화만으로는 향상에 불충분함을 보여준다. 나아가 우리는 허위 보상이 오염된 환경을 넘어서서 성능을 향상시킬 수 있는 이유를 설명하는 '보상-불일치 모델'을 제안한다. 우리의 연구 결과는 허위 보상의 이점 뒤에 숨은 메커니즘을 명확히 하고, 보다 효과적인 RLVR 훈련을 위한 원칙을 제공한다.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.