SeeUPO: Sequentieniveau Agentisch RL met Convergentiegaranties

Samenvatting

Versterkend leren (RL) is naar voren gekomen als het dominante paradigma voor het trainen van op grote taalmodel (LLM) gebaseerde AI-agenten. Echter, bestaande backbone RL-algoritmen ontberen geverifieerde convergentiegaranties in agent-scenario's, vooral in multi-turn settings, wat kan leiden tot trainingsinstabiliteit en het falen om te convergeren naar optimale beleidsregels. In dit artikel analyseren we systematisch hoe verschillende combinaties van beleidsupdate-mechanismen en advantage-schattingsmethoden de convergentie-eigenschappen in single/multi-turn scenario's beïnvloeden. We constateren dat REINFORCE met Group Relative Advantage Estimation (GRAE) kan convergeren naar het globale optimum onder niet-verdisconteerde condities, maar dat de combinatie van PPO & GRAE de oorspronkelijke monotone verbeteringseigenschap van PPO doorbreekt. Verder tonen we aan dat mainstream backbone RL-algoritmen niet tegelijkertijd zowel critic-vrije werking als convergentiegaranties kunnen bereiken in multi-turn scenario's. Om dit aan te pakken, stellen we SeeUPO (Sequence-level Sequential Update Policy Optimization) voor, een critic-vrije benadering met convergentiegaranties voor multi-turn interacties. SeeUPO modelleert multi-turn interactie als sequentieel uitgevoerde multi-agent bandit-problemen. Door turn-voor-turn sequentiële beleidsupdates in omgekeerde uitvoeringsvolgorde zorgt het voor monotone verbetering en convergentie naar de globale optimale oplossing via backward inductie. Experimenten op AppWorld en BFCL v4 demonstreren de substantiële verbeteringen van SeeUPO ten opzichte van bestaande backbone-algoritmen: relatieve winsten van 43.3%-54.6% op Qwen3-14B en 24.1%-41.9% op Qwen2.5-14B (gemiddeld over benchmarks), samen met superieure trainingsstabiliteit.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.

SeeUPO: Sequentieniveau Agentisch RL met Convergentiegaranties

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Samenvatting

Support