SeeUPO : Apprentissage par Renforcement Agentique au Niveau des Séquences avec Garanties de Convergence

Résumé

L'apprentissage par renforcement (RL) est devenu le paradigme dominant pour entraîner les agents IA basés sur de grands modèles de langage (LLM). Cependant, les algorithmes de RL fondamentaux existants ne disposent pas de garanties de convergence vérifiées dans les scénarios agentiques, en particulier dans les cadres multi-tours, ce qui peut entraîner une instabilité de l'entraînement et un échec de convergence vers des politiques optimales. Dans cet article, nous analysons systématiquement comment différentes combinaisons de mécanismes de mise à jour de politique et de méthodes d'estimation de l'avantage affectent les propriétés de convergence dans les scénarios à tour unique/multi-tours. Nous constatons que REINFORCE avec l'estimation d'avantage relatif par groupe (GRAE) peut converger vers l'optimum global dans des conditions non actualisées, mais que la combinaison PPO et GRAE rompt la propriété d'amélioration monotone originale du PPO. De plus, nous démontrons que les principaux algorithmes de RL fondamentaux ne peuvent pas simultanément atteindre à la fois l'absence de critique (critic-free) et des garanties de convergence dans les scénarios multi-tours. Pour résoudre ce problème, nous proposons SeeUPO (Sequence-level Sequential Update Policy Optimization), une approche sans critique offrant des garanties de convergence pour les interactions multi-tours. SeeUPO modélise l'interaction multi-tour comme une série de problèmes de bandits multi-agents exécutés séquentiellement. Grâce à des mises à jour de politique séquentielles tour par tour dans l'ordre d'exécution inverse, il assure une amélioration monotone et une convergence vers la solution optimale globale via une induction arrière. Les expériences sur AppWorld et BFCL v4 démontrent les améliorations substantielles de SeeUPO par rapport aux algorithmes fondamentaux existants : des gains relatifs de 43,3 % à 54,6 % sur Qwen3-14B et de 24,1 % à 41,9 % sur Qwen2.5-14B (moyenne sur les benchmarks), ainsi qu'une stabilité d'entraînement supérieure.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.

SeeUPO : Apprentissage par Renforcement Agentique au Niveau des Séquences avec Garanties de Convergence

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Résumé

Support