SeeUPO: Agente RL a Livello di Sequenza con Garanzie di Convergenza

Abstract

L'apprendimento per rinforzo (RL) è emerso come il paradigma predominante per l'addestramento di agenti IA basati su grandi modelli linguistici (LLM). Tuttavia, gli attuali algoritmi RL di base mancano di garanzie di convergenza verificate in scenari agentici, specialmente in contesti multi-turno, il che può portare a instabilità durante l'addestramento e a fallimenti nel convergere verso politiche ottimali. In questo articolo, analizziamo sistematicamente come diverse combinazioni di meccanismi di aggiornamento della politica e metodi di stima del vantaggio influenzino le proprietà di convergenza in scenari a turno singolo/multiplo. Scopriamo che REINFORCE con Group Relative Advantage Estimation (GRAE) può convergere all'ottimo globale in condizioni non scontate, ma la combinazione di PPO e GRAE infrange la proprietà di miglioramento monotono originale del PPO. Inoltre, dimostriamo che i principali algoritmi RL di base non possono ottenere simultaneamente sia l'assenza di un critico che garanzie di convergenza in scenari multi-turno. Per affrontare questo problema, proponiamo SeeUPO (Sequence-level Sequential Update Policy Optimization), un approccio senza critico con garanzie di convergenza per interazioni multi-turno. SeeUPO modella l'interazione multi-turno come una sequenza di problemi bandit multi-agente eseguiti in sequenza. Attraverso aggiornamenti sequenziali della politica turno per turno in ordine di esecuzione inverso, garantisce un miglioramento monotono e la convergenza alla soluzione ottimale globale mediante induzione all'indietro. Gli esperimenti su AppWorld e BFCL v4 dimostrano i sostanziali miglioramenti di SeeUPO rispetto agli algoritmi di base esistenti: guadagni relativi del 43,3%-54,6% su Qwen3-14B e del 24,1%-41,9% su Qwen2.5-14B (mediati sui benchmark), unitamente a una stabilità di addestramento superiore.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.

SeeUPO: Agente RL a Livello di Sequenza con Garanzie di Convergenza

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Abstract

Support