RAGEN-2 : Effondrement du Raisonnement dans l'Apprentissage par Renforcement Agentique

Résumé

L’entraînement par RL d’agents LLM multi-tours est intrinsèquement instable, et la qualité du raisonnement détermine directement les performances de la tâche. L’entropie est largement utilisée pour suivre la stabilité du raisonnement. Cependant, l’entropie ne mesure que la diversité pour une même entrée, et ne peut pas indiquer si le raisonnement répond réellement à différentes entrées. Dans RAGEN-2, nous constatons que même avec une entropie stable, les modèles peuvent recourir à des modèles fixes qui semblent diversifiés mais sont indépendants de l’entrée. Nous appelons cela l’effondrement en modèle (*template collapse*), un mode d’échec invisible pour l’entropie et toutes les métriques existantes. Pour diagnostiquer cet échec, nous décomposons la qualité du raisonnement en diversité intra-entrée (Entropie) et distinguabilité inter-entrées (Information Mutuelle, IM), et introduisons une famille de proxys d’information mutuelle pour un diagnostic en ligne. Sur diverses tâches, l’information mutuelle corrèle avec les performances finales bien plus fortement que l’entropie, ce qui en fait un proxy plus fiable pour la qualité du raisonnement. Nous expliquons en outre l’effondrement en modèle par un mécanisme de rapport signal sur bruit (RSB). Une faible variance de la récompense affaiblit les gradients de la tâche, laissant les termes de régularisation dominer et effacer les différences de raisonnement entre les entrées. Pour y remédier, nous proposons un Filtrage Sensible au RSB (*SNR-Aware Filtering*) pour sélectionner des prompts à fort signal par itération, en utilisant la variance de la récompense comme proxy léger. Sur des tâches de planification, de raisonnement mathématique, de navigation web et d’exécution de code, la méthode améliore systématiquement à la fois la dépendance à l’entrée et les performances de la tâche.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2 : Effondrement du Raisonnement dans l'Apprentissage par Renforcement Agentique

RAGEN-2: Reasoning Collapse in Agentic RL

Résumé

Support