SeeUPO: Sequenzielle agentenbasierte Verstärkungslernverfahren mit Konvergenzgarantien

Zusammenfassung

Reinforcement Learning (RL) hat sich als vorherrschendes Paradigma für das Training von KI-Agenten auf Basis großer Sprachmodelle (LLM) etabliert. Allerdings verfügen bestehende grundlegende RL-Algorithmen nicht über verifizierte Konvergenzgarantien in agentenbasierten Szenarien, insbesondere in Multi-Turn-Settings, was zu Trainingsinstabilität und dem Scheitern der Konvergenz hin zu optimalen Politiken führen kann. In diesem Artikel analysieren wir systematisch, wie verschiedene Kombinationen von Policy-Update-Mechanismen und Advantage-Schätzmethoden die Konvergenzeigenschaften in Einzel- und Multi-Turn-Szenarien beeinflussen. Wir stellen fest, dass REINFORCE mit Group Relative Advantage Estimation (GRAE) unter undiskontierten Bedingungen zur globalen Optimum konvergieren kann, die Kombination von PPO und GRAE jedoch die ursprüngliche Eigenschaft der monotonen Verbesserung von PPO zerstört. Darüber hinaus zeigen wir, dass gängige grundlegende RL-Algorithmen in Multi-Turn-Szenarien nicht gleichzeitig sowohl Kritiker-Freiheit als auch Konvergenzgarantien erreichen können. Um dieses Problem zu adressieren, schlagen wir SeeUPO (Sequence-level Sequential Update Policy Optimization) vor, einen Kritiker-freien Ansatz mit Konvergenzgarantien für Multi-Turn-Interaktionen. SeeUPO modelliert Multi-Turn-Interaktionen als sequentiell ausgeführte Multi-Agenten-Bandit-Probleme. Durch schrittweise sequentielle Policy-Updates in umgekehrter Ausführungsreihenfolge stellt es monotone Verbesserung und Konvergenz zur globalen optimalen Lösung mittels Rückwärtsinduktion sicher. Experimente auf AppWorld und BFCL v4 demonstrieren die erheblichen Verbesserungen von SeeUPO gegenüber bestehenden Grundalgorithmen: relative Steigerungen von 43,3 % bis 54,6 % bei Qwen3-14B und 24,1 % bis 41,9 % bei Qwen2.5-14B (gemittelt über Benchmarks), zusammen mit einer überlegenen Trainingsstabilität.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.

SeeUPO: Sequenzielle agentenbasierte Verstärkungslernverfahren mit Konvergenzgarantien

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Zusammenfassung

Support