ChatPaper.aiChatPaper

Sul Collasso del GRPO nella Ricerca-R1: La Spirale Mortale della Dislocazione della Verosimiglianza Pigra

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

December 3, 2025
Autori: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI

Abstract

L'apprendimento per rinforzo integrato con strumenti (TI-RL) consente ai grandi modelli linguistici (LLM) di eseguire ragionamenti multi-step interagendo con strumenti esterni come motori di ricerca e sistemi di retrieval. L'ottimizzazione della politica relativa di gruppo (GRPO), esemplificata dal recente Search-R1, offre una convergenza rapida e una formulazione priva di funzioni valore che la rendono appetibile in questo contesto, ma soffre costantemente di collasso addestrativo. Identifichiamo lo Spostamento Pigro della Verosimiglianza (LLD), una riduzione sistematica o stagnazione della verosimiglianza sia delle risposte corrette che di quelle errate, come il meccanismo centrale che guida questo fallimento. LLD emerge precocemente e innesca una Spirale Mortale di LLD auto-rinforzante, in cui il calo della verosimiglianza porta a risposte a bassa confidenza, inflaziona i gradienti e causa infine il collasso. Caratterizziamo empiricamente questo processo su vari modelli in un task di question answering integrato con la ricerca in stile Search-R1, rivelando una traiettoria coerente in tre fasi: stagnazione iniziale, decadimento costante e collasso accelerato. Per affrontare questo problema, proponiamo una regolarizzazione leggera per preservare la verosimiglianza (LLDS) per GRPO che si attiva solo quando la verosimiglianza di una traiettoria diminuisce e regolarizza solo i token responsabili. Questa struttura fine mitiga l'LLD con interferenza minima per l'ottimizzazione. Su sette benchmark di QA open-domain e multi-hop, il nostro metodo stabilizza l'addestramento, previene l'esplosione del gradiente e produce sostanziali miglioramenti delle prestazioni, inclusi guadagni di +37,8% su Qwen2.5-3B e +32,0% su Qwen2.5-7B. I nostri risultati stabiliscono l'LLD come un collo di bottiglia fondamentale nel TI-RL basato su GRPO e forniscono una via pratica verso un addestramento stabile e scalabile di LLM integrati con strumenti.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
PDF112December 21, 2025