ChatPaper.aiChatPaper

검색-R1에서의 GRPO 붕괴: 게으른 가능도-변위 사멸 나선

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

December 3, 2025
저자: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI

초록

도구 통합(TI) 강화 학습(RL)은 검색 엔진 및 검색기(retriever)와 같은 외부 도구와의 상호작용을 통해 대규모 언어 모델(LLM)이 다단계 추론을 수행할 수 있게 합니다. 최근 Search-R1에서 예시된 그룹 상대 정책 최적화(GRPO)는 빠른 수렴 속도와 가치 함수가 필요 없는 구성으로 이러한 환경에 매력적이지만, 지속적으로 학습 붕괴(training collapse) 문제를 겪습니다. 우리는 이 실패를 주도하는 핵심 메커니즘으로, 올바른 응답과 잘못된 응답 모두의 가능성(likelihood)이 체계적으로 감소하거나 정체되는 현상인 '게으른 가능성 변위(LLD)'를 규명합니다. LLD는 초기부터 나타나며, 감소하는 가능성이 낮은 신뢰도의 응답, 팽창하는 기울기(gradient), 그리고 궁극적인 붕괴를 초래하는 자기 강화적인 'LLD 데스 스파이럴'을 촉발합니다. 우리는 Search-R1 스타일의 검색 통합 질의응답 작업에서 다양한 모델에 걸친 이 과정을 실증적으로 분석하며, 일관된 세 단계 진행轨迹(early stagnation, steady decay, accelerated collapse)를 밝혀냅니다. 이를 해결하기 위해, 우리는 GRPO를 위한 경량의 가능성 보존 정규화 방법인 LLDS를 제안합니다. 이 방법은 특정 추론 경로(trajectory)의 가능성이 감소할 때만 활성화되며, 감소에 책임이 있는 토큰만을 정규화합니다. 이러한 세분화된 구조는 최적화 과정에 최소한의 간섭을 하면서 LLD를 완화합니다. 7개의 오픈 도메인 및 다중 홉(multi-hop) QA 벤치마크에서 우리의 방법은 학습을 안정화하고, 기울기 폭발(gradient explosion)을 방지하며, Qwen2.5-3B에서 +37.8%, Qwen2.5-7B에서 +32.0% 향상과 같은 상당한 성능 개선을 가져왔습니다. 우리의 결과는 LLD가 GRPO 기반 TIRL의 근본적인 병목 현상임을 입증하며, 도구 통합 LLM의 안정적이고 확장 가능한 학습을 위한 실용적인 길을 제시합니다.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
PDF71December 6, 2025