ChatPaper.aiChatPaper

Over de GRPO-implosie in Search-R1: De Spiraal van Luie Waarschijnlijkheidsverschuiving

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

December 3, 2025
Auteurs: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI

Samenvatting

Tool-geïntegreerde (TI) reinforcement learning (RL) stelt grote taalmmodellen (LLMs) in staat om meerstapsredeneringen uit te voeren door interactie met externe tools zoals zoekmachines en retrievers. Group Relative Policy Optimization (GRPO), geïllustreerd door de recente Search-R1, biedt snelle convergentie en een waardevrije formulering die aantrekkelijk is voor deze setting, maar lijdt consequent aan trainingsinstorting. Wij identificeren Lazy Likelihood Displacement (LLD), een systematische reductie of stagnatie in de waarschijnlijkheid van zowel correcte als incorrecte antwoorden, als het kernmechanisme dat dit falen veroorzaakt. LLD ontstaat vroeg en activeert een zichzelf versterkende LLD-doodsspiraal, waarbij afnemende waarschijnlijkheid leidt tot laagvertrouwensantwoorden, opgeblazen gradients en uiteindelijk instorting veroorzaakt. We karakteriseren dit proces empirisch bij modellen in een Search-R1-stijl, zoek-geïntegreerde vraagbeantwoordings-taak, en onthullen een consistente driefasentraject: vroege stagnatie, gestage achteruitgang en versnelde instorting. Om dit aan te pakken, stellen we een lichtgewicht, waarschijnlijkheidsbewarende regularisatie LLDS voor GRPO voor die alleen activeert wanneer de waarschijnlijkheid van een traject afneemt, en alleen de verantwoordelijke tokens regulariseert. Deze fijnmazige structuur vermindert LLD met minimale verstoring van de optimalisatie. Over zeven open-domein- en multi-hop QA-benchmarks heen stabiliseert onze methode de training, voorkomt gradientexplosie en levert substantiële prestatieverbeteringen op, waaronder winsten van +37,8% op Qwen2.5-3B en +32,0% op Qwen2.5-7B. Onze resultaten vestigen LLD als een fundamenteel knelpunt in GRPO-gebaseerde TIRL en bieden een praktisch pad naar stabiele, schaalbare training van tool-geïntegreerde LLM's.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
PDF112December 21, 2025