ChatPaper.aiChatPaper

О коллапсе GRPO в Search-R1: Спираль гибели из-за ленивого смещения правдоподобия

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

December 3, 2025
Авторы: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li
cs.AI

Аннотация

Обучение с подкреплением с интеграцией инструментов (TI-RL) позволяет большим языковым моделям (LLM) выполнять многошаговые рассуждения, взаимодействуя с внешними инструментами, такими как поисковые системы и системы извлечения информации. Оптимизация групповой относительной политики (GRPO), примером которой является недавняя модель Search-R1, обеспечивает быструю сходимость и бесценностную формулировку, что делает её привлекательной для данной настройки, однако она постоянно страдает от коллапса обучения. Мы идентифицируем Lazy Likelihood Displacement (LLD) — систематическое снижение или стагнацию правдоподобия как правильных, так и неправильных ответов — как ключевой механизм, приводящий к этому сбою. LLD возникает на ранних этапах и запускает самоподдерживающуюся "спираль смерти LLD", в которой снижающееся правдоподобие приводит к низкодостоверным ответам, раздуванию градиентов и, в конечном счёте, к коллапсу. Мы эмпирически характеризуем этот процесс на различных моделях в задаче поискового вопросно-ответного задания в стиле Search-R1, выявляя последовательную трёхфазную траекторию: ранний застой, устойчивый спад и ускоренный коллапс. Для решения этой проблемы мы предлагаем лёгкую регуляризацию, сохраняющую правдоподобие (LLDS), для GRPO, которая активируется только при уменьшении правдоподобия траектории и регуляризует лишь ответственные за это токены. Эта детализированная структура смягчает LLD при минимальном вмешательстве в оптимизацию. На семи тестовых наборах данных по открытому домену и многошаговому вопросно-ответному заданию наш метод стабилизирует обучение, предотвращает взрыв градиентов и обеспечивает существенное улучшение производительности, включая прирост на +37,8% для Qwen2.5-3B и на +32,0% для Qwen2.5-7B. Наши результаты устанавливают LLD как фундаментальное узкое место в TI-RL на основе GRPO и предлагают практический путь к стабильному и масштабируемому обучению LLM с интеграцией инструментов.
English
Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
PDF71December 6, 2025