RAGEN-2: Collasso del Ragionamento nell'RL Agente

Abstract

L'addestramento RL di agenti LLM multi-turn è intrinsecamente instabile, e la qualità del ragionamento determina direttamente le prestazioni del compito. L'entropia è ampiamente utilizzata per monitorare la stabilità del ragionamento. Tuttavia, l'entropia misura solo la diversità all'interno dello stesso input e non può dire se il ragionamento risponda effettivamente a input diversi. In RAGEN-2, scopriamo che anche con un'entropia stabile, i modelli possono fare affidamento su modelli fissi che appaiono diversificati ma sono indipendenti dall'input. Chiamiamo questo fenomeno "collasso del modello" (template collapse), una modalità di fallimento invisibile all'entropia e a tutte le metriche esistenti. Per diagnosticare questo fallimento, scomponiamo la qualità del ragionamento in diversità intra-input (Entropia) e distinguibilità inter-input (Informazione Mutua, MI), e introduciamo una famiglia di proxy di informazione mutua per la diagnosi online. In vari compiti, l'informazione mutua si correla con le prestazioni finali molto più fortemente dell'entropia, rendendola un proxy più affidabile per la qualità del ragionamento. Spieghiamo ulteriormente il collasso del modello con un meccanismo del rapporto segnale-rumore (SNR). Una bassa varianza della ricompensa indebolisce i gradienti del compito, lasciando che i termini di regolarizzazione dominino e cancellino le differenze di ragionamento tra input diversi. Per affrontare ciò, proponiamo il Filtro Consapevole dello SNR (SNR-Aware Filtering) per selezionare prompt ad alto segnale per ogni iterazione, utilizzando la varianza della ricompensa come proxy leggero. In ambiti come la pianificazione, il ragionamento matematico, la navigazione web e l'esecuzione di codice, il metodo migliora costantemente sia la dipendenza dall'input che le prestazioni del compito.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2: Collasso del Ragionamento nell'RL Agente

RAGEN-2: Reasoning Collapse in Agentic RL

Abstract

Support