ChatPaper.aiChatPaper

古びたフィードバックからの脱却:オープンワールドエージェント学習のための共進化批評システム

No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning

January 11, 2026
著者: Zhicong Li, Lingjie Jiang, Yulan Hu, Xingchen Zeng, Yixia Li, Xiangwen Zhang, Guanhua Chen, Zheng Pan, Xin Li, Yong Liu
cs.AI

要旨

批評誘導型強化学習(RL)は、疎な結果報酬を自然言語フィードバックで補強することでLLMエージェントを訓練する強力なパラダイムとして登場した。しかし、現在の手法は静的またはオフラインの批評家モデルに依存することが多く、方策の進化に適応できない。方策オン型RLでは、エージェントのエラーパターンが時間とともに変化するため、静止した批評家は陳腐化し、その有用性が低下するフィードバックを提供するようになる。この問題に対処するため、我々は同期化された共進化的ループを通じて方策と批評家を共同で最適化するフレームワーク、ECHO(Evolving Critic for Hindsight-Guided Optimization)を提案する。ECHOはカスケード型ロールアウト機構を利用し、批評家が初期軌道に対して複数の診断を生成した後、グループ構造化されたアドバンテージ推定を可能にする方策改良を行う。学習プラトーの課題には、飽和を考慮したゲイン形成目的関数を導入し、高パフォーマンス軌道における漸進的改善を誘導する批評家を報酬とする。デュアルトラックGRPO更新を採用することで、ECHOは批評家のフィードバックが進化する方策と同期し続けることを保証する。実験結果は、ECHOがオープンワールド環境において、より安定した訓練と長期的タスクの高い成功率をもたらすことを示している。
English
Critique-guided reinforcement learning (RL) has emerged as a powerful paradigm for training LLM agents by augmenting sparse outcome rewards with natural-language feedback. However, current methods often rely on static or offline critic models, which fail to adapt as the policy evolves. In on-policy RL, the agent's error patterns shift over time, causing stationary critics to become stale and providing feedback of diminishing utility. To address this, we introduce ECHO (Evolving Critic for Hindsight-Guided Optimization)}, a framework that jointly optimizes the policy and critic through a synchronized co-evolutionary loop. ECHO utilizes a cascaded rollout mechanism where the critic generates multiple diagnoses for an initial trajectory, followed by policy refinement to enable group-structured advantage estimation. We address the challenge of learning plateaus via a saturation-aware gain shaping objective, which rewards the critic for inducing incremental improvements in high-performing trajectories. By employing dual-track GRPO updates, ECHO ensures the critic's feedback stays synchronized with the evolving policy. Experimental results show that ECHO yields more stable training and higher long-horizon task success across open-world environments.
PDF11January 16, 2026