ChatPaper.aiChatPaper

検索-R1におけるGRPO崩壊について:怠惰な尤度変位死のスパイラル

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

December 3, 2025
著者: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI

要旨

ツール統合型強化学習(TI-RL)は、大規模言語モデル(LLM)が検索エンジンや検索器などの外部ツールと相互作用することで、多段階の推論を実行することを可能にする。近年のSearch-R1に代表されるGroup Relative Policy Optimization(GRPO)は、収束が早く価値関数を必要としない定式化により、この設定において魅力的な手法であるが、一貫して学習の崩壊に悩まされている。我々は、この失敗を引き起こす核心的なメカニズムとして、正答と誤答の双方の尤度が体系的に減少または停滞する現象であるLazy Likelihood Displacement(LLD)を同定した。LLDは早期に発生し、LLDデススパイラルという自己強化プロセスを引き起こす。すなわち、尤度の低下が低信頼度の応答を生み、勾配を膨張させ、最終的に崩壊を招く。Search-R1スタイルの検索統合型質問応答タスクにおいて、各種モデルにわたるこのプロセスを実証的に分析し、一貫した3段階の軌跡(早期停滞期、安定減衰期、加速崩壊期)を明らかにした。この問題に対処するため、我々はGRPO向けの軽量な尤度保存正則化手法LLDSを提案する。これは、軌跡の尤度が減少した時のみ活性化し、責任のあるトークンのみを正則化する。この細粒度の構造により、最適化への干渉を最小限に抑えつつLLDを緩和する。7つのオープンドメインおよびマルチホップQAベンチマークにおいて、本手法は学習を安定化させ、勾配爆発を防止し、Qwen2.5-3Bで+37.8%、Qwen2.5-7Bで+32.0%という大幅な性能向上をもたらした。我々の結果は、LLDがGRPOベースのTI-RLにおける根本的なボトルネックであることを立証し、ツール統合型LLMの安定かつスケーラブルな学習に向けた実用的な道筋を提供する。
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
PDF71December 6, 2025