Sobre o Colapso do GRPO no Search-R1: A Espiral da Morte por Deslocamento da Verossimilhança Preguiçosa

Resumo

A aprendizagem por reforço com ferramentas integradas (TI-AR) permite que modelos de linguagem grandes (LLMs) realizem raciocínio multi-etapa através da interação com ferramentas externas, como motores de busca e sistemas de recuperação. A Otimização de Política por Grupo Relativo (GRPO), exemplificada pelo recente Search-R1, oferece convergência rápida e uma formulação livre de função de valor, tornando-a atraente para este contexto, mas sofre consistentemente de colapso no treinamento. Identificamos o Deslocamento Preguiçoso da Verossimilhança (LLD), uma redução ou estagnação sistemática na verossimilhança tanto de respostas corretas quanto incorretas, como o mecanismo central que impulsiona essa falha. O LLD emerge precocemente e desencadeia um *Espiral da Morte do LLD* autorreforçador, onde a verossimilhança decrescente leva a respostas de baixa confiança, inflaciona os gradientes e, por fim, causa o colapso. Caracterizamos empiricamente este processo em vários modelos em uma tarefa de resposta a perguntas com busca integrada no estilo Search-R1, revelando uma trajetória consistente de três fases: estagnação inicial, decaimento constante e colapso acelerado. Para resolver isto, propomos uma regularização leve de preservação da verossimilhança, o LLDS para GRPO, que se ativa apenas quando a verossimilhança de uma trajetória diminui e regulariza apenas os *tokens* responsáveis. Esta estrutura de granularidade fina mitiga o LLD com interferência mínima na otimização. Em sete benchmarks de QA de domínio aberto e multi-hop, nosso método estabiliza o treinamento, previne a explosão de gradientes e produz melhorias substanciais de desempenho, incluindo ganhos de +37,8% no Qwen2.5-3B e +32,0% no Qwen2.5-7B. Nossos resultados estabelecem o LLD como um gargalo fundamental na TI-AR baseada em GRPO e fornecem um caminho prático para o treinamento estável e escalável de LLMs com ferramentas integradas.

English

Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.

Sobre o Colapso do GRPO no Search-R1: A Espiral da Morte por Deslocamento da Verossimilhança Preguiçosa

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

Resumo

Support