RAGEN-2: Redeneercollaps in Agentisch RL

Samenvatting

De RL-training van multi-turn LLM-agenten is inherent instabiel, en de redeneerkwaliteit bepaalt rechtstreeks de taakprestatie. Entropie wordt veel gebruikt om de redeneerstabiliteit te volgen. Entropie meet echter alleen de diversiteit binnen dezelfde invoer en kan niet vaststellen of de redenering daadwerkelijk reageert op verschillende invoeren. In RAGEN-2 zien we dat zelfs bij stabiele entropie, modellen kunnen vertrouwen op vaste sjablonen die er divers uitzien maar invoeronafhankelijk zijn. Wij noemen dit *template collapse* (sjablooninstorting), een faalmodus die onzichtbaar is voor entropie en alle bestaande metrieken. Om deze fout te diagnosticeren, ontleden we de redeneerkwaliteit in diversiteit binnen invoer (Entropie) en onderscheidbaarheid tussen invoeren (Wederzijdse Informatie, MI), en introduceren we een familie van wederzijdse-informatie-benaderingen voor online diagnose. Over diverse taken heen correleert wederzijdse informatie veel sterker met de uiteindelijke prestatie dan entropie, wat het een betrouwbaarder benadering maakt voor redeneerkwaliteit. We verklaren *template collapse* verder met een signaal-ruisverhouding (SNR)-mechanisme. Lage beloningsvariantie verzwakt taakgradiënten, waardoor regularisatietermen domineren en redeneerverschillen tussen invoeren uitwissen. Om dit aan te pakken, stellen we *SNR-Aware Filtering* voor om per iteratie prompts met een hoog signaal te selecteren met behulp van beloningsvariantie als lichtgewicht benadering. Over planning, wiskundig redeneren, webnavigatie en code-uitvoering heen verbetert de methode consistent zowel de invoerafhankelijkheid als de taakprestatie.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2: Redeneercollaps in Agentisch RL

RAGEN-2: Reasoning Collapse in Agentic RL

Samenvatting

Support