基礎への回帰:生成確率によるLLM推論における強化学習の探索手法の再検討
Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities
February 5, 2026
著者: Pengyi Li, Elizaveta Goncharova, Andrey Kuznetsov, Ivan Oseledets
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる上で不可欠なパラダイムとして登場した。しかし、Group Relative Policy Optimization(GRPO)のような標準的な方策最適化手法は、低エントロピー方策に収束しがちであり、深刻なモード崩壊と出力の多様性の低下を引き起こす。本研究ではこの問題をサンプリング確率動態の観点から分析し、標準的な目的関数が最も尤度の高い経路を過度に強化することで、有効な代替推論連鎖が抑制されることを明らかにする。この問題に対処するため、我々は全ての正答間の信頼度水準を均衡化する新規のAdvantage Re-weighting Mechanism(ARM)を提案する。プロンプトのパープレキシティと回答信頼度をアドバンテージ推定に組み込むことで、本手法は報酬信号を動的に再形成し、過剰に信頼された推論経路に対する勾配更新を減衰させるとともに、未探索の正解解へ確率質量を再分配する。実験結果から、本アプローチが精度を維持しつつ生成多様性と応答エントロピーを大幅に向上させ、推論タスクにおける探索と利用の優れたトレードオフを実現することが示された。数学およびコーディングベンチマークにおけるQwen2.5とDeepSeekモデルでの実験結果は、提案手法がエントロピー崩壊を有意に緩和することを実証している。具体的には、Qwen2.5-7Bにおいて、本手法はGRPOをPass@1で5.7%、特にPass@32で13.9%上回り、多様な正しい推論経路を生成する優れた能力を強調している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.