Zum GRPO-Kollaps in Search-R1: Der Teufelskreis aus träger Likelihood-Verschiebung
On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
December 3, 2025
papers.authors: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI
papers.abstract
Tool-integrated (TI) Reinforcement Learning (RL) ermöglicht es großen Sprachmodellen (LLMs), durch Interaktion mit externen Werkzeugen wie Suchmaschinen und Retrievern mehrstufiges Reasoning durchzuführen. Group Relative Policy Optimization (GRPO), veranschaulicht durch das kürzlich vorgestellte Search-R1, bietet schnelle Konvergenz und eine wertfreie Formulierung, die es für diesen Anwendungsfall attraktiv macht, leidet jedoch konsequent unter Trainingskollaps. Wir identifizieren Lazy Likelihood Displacement (LLD) – eine systematische Reduktion oder Stagnation der Likelihood sowohl korrekter als auch inkorrekter Antworten – als den zentralen Mechanismus, der diesem Versagen zugrunde liegt. LLD tritt früh auf und löst eine sich selbst verstärkende LLD Death Spiral aus, bei der sinkende Likelihood zu Antworten mit geringem Konfidenzniveau, aufgeblähten Gradienten und schließlich zum Kollaps führt. Wir charakterisieren diesen Prozess empirisch anhand von Modellen in einer Search-R1-artigen, suchintegrierten Frage-Antwort-Aufgabe und zeigen einen konsistenten Drei-Phasen-Verlauf: frühe Stagnation, stetiger Zerfall und beschleunigter Kollaps. Um dies zu adressieren, schlagen wir eine leichtgewichtige, likelihood-erhaltende Regularisierung LLDS für GRPO vor, die nur aktiviert wird, wenn die Likelihood einer Trajektorie abnimmt, und nur die dafür verantwortlichen Tokens regularisiert. Diese feingranulare Struktur mildert LLD mit minimaler Beeinträchtigung der Optimierung. Über sieben Open-Domain- und Multi-Hop-QA-Benchmarks hinweg stabilisiert unsere Methode das Training, verhindert Gradient Explosion und erzielt substanzielle Leistungsverbesserungen, einschließlich Steigerungen von +37,8 % bei Qwen2.5-3B und +32,0 % bei Qwen2.5-7B. Unsere Ergebnisse etablieren LLD als einen fundamentalen Engpass in GRPO-basiertem TIRL und bieten einen praktischen Weg für stabiles, skalierbares Training von werkzeugintegrierten LLMs.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.