SeeUPO:収束保証付きシーケンスレベルエージェント強化学習
SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees
February 6, 2026
著者: Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding
cs.AI
要旨
強化学習(RL)は、大規模言語モデル(LLM)ベースのAIエージェントを訓練するための主要なパラダイムとして台頭してきた。しかし、既存の中核的RLアルゴリズムは、エージェントを活用するシナリオ、特に多ターン設定において、検証済みの収束保証を欠いており、これが訓練の不安定性や最適方策への収束失敗を引き起こす可能性がある。
本論文では、単一/多ターンシナリオにおいて、方策更新メカニズムとアドバンテージ推定手法の異なる組み合わせが収束性に与える影響を体系的に分析する。我々は、グループ相対アドバンテージ推定(GRAE)を組み合わせたREINFORCEが、割引なし条件下で大域的最適解に収束し得ることを明らかにする一方で、PPOとGRAEの組み合わせはPPOの元来の単調改善性を破壊することを見出した。さらに、主流の中核的RLアルゴリズムは、多ターンシナリオにおいて、批評家(Critic)を不要とすることと収束保証を同時に達成できないことを示す。
この問題を解決するため、我々は多ターン相互作用において収束保証を持つ批評家不要のアプローチ、SeeUPO(Sequence-level Sequential Update Policy Optimization)を提案する。SeeUPOは多ターン相互作用を逐次実行されるマルチエージェント・バンディット問題としてモデル化する。実行順序を逆にしたターン毎の逐次的な方策更新を通じて、後ろ向き帰納法により単調改善性と大域的最適解への収束を保証する。
AppWorldおよびBFCL v4における実験により、SeeUPOが既存の中核的アルゴリズムを大幅に上回ることを実証した:Qwen3-14Bでは43.3%-54.6%、Qwen2.5-14Bでは24.1%-41.9%の相対的向上(ベンチマーク平均)と、優れた訓練安定性を達成した。
English
Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies.
In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios.
To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction.
Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.