RAGEN-2: Colapso do Raciocínio no RL Agente

Resumo

O treinamento por RL de agentes de LLM multi-turn é inerentemente instável, e a qualidade do raciocínio determina diretamente o desempenho da tarefa. A entropia é amplamente utilizada para rastrear a estabilidade do raciocínio. No entanto, a entropia mede apenas a diversidade dentro da mesma entrada e não consegue indicar se o raciocínio realmente responde a entradas diferentes. No RAGEN-2, descobrimos que, mesmo com entropia estável, os modelos podem depender de modelos fixos que parecem diversos, mas são agnósticos à entrada. Denominamos este fenômeno de colapso de modelo, um modo de falha invisível para a entropia e todas as métricas existentes. Para diagnosticar esta falha, decompomos a qualidade do raciocínio em diversidade intra-entrada (Entropia) e capacidade de distinção inter-entradas (Informação Mútua, IM), e introduzimos uma família de proxies de informação mútua para diagnóstico online. Em diversas tarefas, a informação mútua correlaciona-se com o desempenho final muito mais fortemente do que a entropia, tornando-a um proxy mais confiável para a qualidade do raciocínio. Explicamos ainda o colapso de modelo com um mecanismo de relação sinal-ruído (SNR). A baixa variância da recompensa enfraquece os gradientes da tarefa, permitindo que os termos de regularização dominem e apaguem as diferenças de raciocínio entre entradas. Para resolver isto, propomos a Filtragem Consciente do SNR para selecionar *prompts* de alto sinal por iteração, usando a variância da recompensa como um proxy leve. Em planeamento, raciocínio matemático, navegação web e execução de código, o método melhora consistentemente tanto a dependência da entrada como o desempenho da tarefa.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2: Colapso do Raciocínio no RL Agente

RAGEN-2: Reasoning Collapse in Agentic RL

Resumo

Support