기본으로 돌아가기: 생성 확률을 통한 LLM 추론에서의 강화 학습 탐색 재검토
Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities
February 5, 2026
저자: Pengyi Li, Elizaveta Goncharova, Andrey Kuznetsov, Ivan Oseledets
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 필수 패러다임으로 부상했습니다. 그러나 GRPO(Group Relative Policy Optimization)와 같은 표준 정책 최적화 방법은 종종 낮은 엔트로피 정책으로 수렴하여 심각한 모드 붕괴와 제한된 출력 다양성을 초래합니다. 본 연구는 표준 목적 함수가 최대 가능도 경로를 지나치게 강화하여 유효한 대체 추론 체인을 억제한다는 점을 표본 확률 역학 관점에서 분석합니다. 이를 해결하기 위해 모든 정답 응답 간 신뢰도 수준을 균형 있게 조정하는 새로운 ARM(Advantage Re-weighting Mechanism)을 제안합니다. 프롬프트 복잡도와 답변 신뢰도를 advantage 추정에 통합함으로써, 우리의 방법은 과도하게 확신된 추론 경로의 경사 업데이트를 감쇠하는 동시에 충분히 탐색되지 않은 정답으로 확률 질량을 재분배하도록 보상 신호를 동적으로 재구성합니다. 실험 결과, 우리의 접근법이 경쟁력 있는 정확도를 유지하면서 생성 다양성과 응답 엔트로피를 크게 향상시켜 추론 과제에서 탐사와 활용 간 우수한 균형을 효과적으로 달성함을 보여줍니다. 수학 및 코딩 벤치마크에서 Qwen2.5 및 DeepSeek 모델을 대상으로 한 실험 결과, ProGRPO가 엔트로피 붕괴를 현저히 완화합니다. 구체적으로 Qwen2.5-7B에서 우리 방법은 Pass@1 기준 GRPO 대비 5.7%, 특히 Pass@32 기준으로는 13.9% 우수한 성능을 보여 다양한 정답 추론 경로 생성 능력의 우수성을 입증했습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.