ChatPaper.aiChatPaper

RAGEN-2: エージェンシック強化学習における推論の崩壊

RAGEN-2: Reasoning Collapse in Agentic RL

April 7, 2026
著者: Zihan Wang, Chi Gui, Xing Jin, Qineng Wang, Licheng Liu, Kangrui Wang, Shiqi Chen, Linjie Li, Zhengyuan Yang, Pingyue Zhang, Yiping Lu, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
cs.AI

要旨

多対話LLMエージェントの強化学習は本質的に不安定であり、推論品質がタスク性能を直接決定します。エントロピーは推論の安定性を追跡する指標として広く用いられています。しかし、エントロピーは同一入力内の多様性しか測定できず、推論が実際に異なる入力に応答しているかは判断できません。RAGEN-2では、エントロピーが安定している場合でも、モデルが一見多様だが入力に依存しない固定テンプレートに依存する現象を確認しました。これを「テンプレート崩壊」と名付け、これはエントロピーや既存の指標では検出不能な故障モードです。 この問題を診断するため、推論品質を「入力内多様性(エントロピー)」と「入力間識別性(相互情報量、MI)」に分解し、オンライン診断のための相互情報量代理指標群を提案します。多様なタスクにおいて、相互情報量はエントロピーよりも最終性能と強く相関し、推論品質のより信頼性の高い代理指標となります。さらに、信号対雑音比(SNR)メカニズムでテンプレート崩壊を説明します。報酬分散が低いとタスク勾配が弱まり、正則化項が支配的になって入力間の推論差異が消失します。この問題に対処するため、報酬分散を軽量な代理指標として反復毎に高信号プロンプトを選択する「SNR認識フィルタリング」を提案します。計画立案、数学推論、ウェブナビゲーション、コード実行を含む多様なタスクで、本手法は入力依存性とタスク性能の両方を一貫して改善します。
English
RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.
PDF422April 10, 2026