Sobre el Colapso del GRPO en Search-R1: La Espiral Mortal de Desplazamiento de Verosimilitud por Pereza
On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
December 3, 2025
Autores: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI
Resumen
El aprendizaje por refuerzo con herramientas integradas (TI-AR) permite a los modelos de lenguaje grandes (LLMs) realizar razonamientos de múltiples pasos interactuando con herramientas externas como motores de búsqueda y sistemas de recuperación. La Optimización de Políticas Relativas de Grupo (GRPO), ejemplificada por el reciente Search-R1, ofrece una convergencia rápida y una formulación libre de valores que la hace atractiva para este entorno, pero sufre consistentemente de colapso durante el entrenamiento. Identificamos el Desplazamiento Perezoso de la Verosimilitud (LLD), una reducción sistemática o estancamiento en la verosimilitud tanto de las respuestas correctas como incorrectas, como el mecanismo central que impulsa este fallo. El LLD emerge tempranamente y desencadena un Espiral de Muerte por LLD auto-reforzante, donde la verosimilitud decreciente conduce a respuestas de baja confianza, inflando los gradientes y causando finalmente el colapso. Caracterizamos empíricamente este proceso en varios modelos en una tarea de respuesta a preguntas con búsqueda integrada al estilo de Search-R1, revelando una trayectoria consistente de tres fases: estancamiento inicial, decadencia constante y colapso acelerado. Para abordarlo, proponemos una regularización liviana que preserva la verosimilitud, LLDS para GRPO, que se activa solo cuando la verosimilitud de una trayectoria disminuye, y regulariza únicamente los tokens responsables. Esta estructura de grano fino mitiga el LLD con una interferencia mínima en la optimización. En siete benchmarks de preguntas y respuestas de dominio abierto y de múltiples saltos, nuestro método estabiliza el entrenamiento, previene la explosión de gradientes y produce mejoras sustanciales de rendimiento, incluyendo ganancias de +37.8% en Qwen2.5-3B y +32.0% en Qwen2.5-7B. Nuestros resultados establecen al LLD como un cuello de botella fundamental en el TI-AR basado en GRPO y proporcionan un camino práctico hacia el entrenamiento estable y escalable de LLMs con herramientas integradas.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.