RAGEN-2: Reasoning-Kollaps im agentenbasierten Reinforcement Learning

Zusammenfassung

Das Reinforcement Learning (RL)-Training von mehrschrittigen LLM-Agenten ist inhärent instabil, und die Qualität des Reasoning bestimmt direkt die Aufgabenleistung. Entropie wird häufig zur Verfolgung der Reasoning-Stabilität verwendet. Allerdings misst Entropie nur die Diversität innerhalb derselben Eingabe und kann nicht feststellen, ob das Reasoning tatsächlich auf verschiedene Eingaben reagiert. In RAGEN-2 stellen wir fest, dass Modelle selbst bei stabiler Entropie auf feste Templates zurückgreifen können, die divers erscheinen, aber eingabeunabhängig sind. Wir bezeichnen dies als Template-Kollaps, einen Fehlermodus, der für Entropie und alle bestehenden Metriken unsichtbar ist. Um diesen Fehler zu diagnostizieren, zerlegen wir die Reasoning-Qualität in Diversität innerhalb der Eingabe (Entropie) und Unterscheidbarkeit zwischen Eingaben (Gegenseitige Information, MI) und führen eine Familie von MI-Proxys für die Online-Diagnose ein. Über verschiedene Aufgaben hinweg korreliert die gegenseitige Information viel stärker mit der Endleistung als die Entropie, was sie zu einem zuverlässigeren Proxy für die Reasoning-Qualität macht. Wir erklären den Template-Kollaps weiter mit einem Signal-Rausch-Verhältnis (SNR)-Mechanismus. Geringe Reward-Varianz schwächt Aufgaben-Gradienten, wodurch Regularisierungsterme dominieren und Reasoning-Unterschiede zwischen Eingaben löschen. Um dies zu adressieren, schlagen wir SNR-Aware Filtering vor, um pro Iteration Prompts mit hohem Signalgehalt anhand der Reward-Varianz als leichtgewichtigen Proxy auszuwählen. In den Bereichen Planung, mathematisches Reasoning, Webnavigation und Code-Ausführung verbessert die Methode durchgängig sowohl die Eingabeabhängigkeit als auch die Aufgabenleistung.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2: Reasoning-Kollaps im agentenbasierten Reinforcement Learning

RAGEN-2: Reasoning Collapse in Agentic RL

Zusammenfassung

Support