ChatPaper.aiChatPaper

Sur l'effondrement du GRPO dans Search-R1 : La spirale mortelle de la paresse du déplacement de vraisemblance

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

December 3, 2025
papers.authors: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI

papers.abstract

L'apprentissage par renforcement intégrant des outils (TI-RL) permet aux grands modèles de langage (LLM) d'effectuer un raisonnement à plusieurs étapes en interagissant avec des outils externes tels que les moteurs de recherche et les systèmes de récupération. L'optimisation de politique relative au groupe (GRPO), illustrée par le récent Search-R1, offre une convergence rapide et une formulation sans valeur qui la rend attractive pour ce cadre, mais souffre systématiquement d'un effondrement en cours d'entraînement. Nous identifions le Déplacement Paresseux de la Vraisemblance (LLD), une réduction ou stagnation systématique de la vraisemblance des réponses correctes et incorrectes, comme le mécanisme central conduisant à cet échec. Le LLD émerge précocement et déclenche une Spirale Mortelle du LLD auto-renforçante, où la vraisemblance déclinante entraîne des réponses peu confiantes, gonfle les gradients et cause finalement l'effondrement. Nous caractérisons empiriquement ce processus sur divers modèles dans une tâche de question-réponse intégrant la recherche, de type Search-R1, révélant une trajectoire constante en trois phases : stagnation précoce, décroissance régulière et effondrement accéléré. Pour y remédier, nous proposons une régularisation légère préservant la vraisemblance, LLDS pour GRPO, qui s'active uniquement lorsque la vraisemblance d'une trajectoire diminue, et ne régularise que les tokens responsables. Cette structure fine atténue le LLD avec une interférence minimale sur l'optimisation. Sur sept benchmarks de question-révalence en domaine ouvert et à sauts multiples, notre méthode stabilise l'entraînement, prévient l'explosion des gradients et procure des améliorations substantielles, incluant des gains de +37,8 % sur Qwen2.5-3B et +32,0 % sur Qwen2.5-7B. Nos résultats établissent le LLD comme un goulot d'étranglement fondamental dans le TI-RL basé sur GRPO et offrent une voie pratique vers un entraînement stable et scalable des LLM intégrant des outils.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
PDF71December 6, 2025