SeeUPO: Aprendizado por Reforço Agencial em Nível de Sequência com Garantias de Convergência

Resumo

O aprendizado por reforço (RL) emergiu como o paradigma predominante para treinar agentes de IA baseados em modelos de linguagem grandes (LLMs). No entanto, os algoritmos de RL fundamentais existentes carecem de garantias de convergência verificadas em cenários agentivos, especialmente em configurações multi-turno, o que pode levar à instabilidade do treinamento e à falha em convergir para políticas ótimas. Neste artigo, analisamos sistematicamente como diferentes combinações de mecanismos de atualização de política e métodos de estimativa de vantagem afetam as propriedades de convergência em cenários de turno único/múltiplo. Descobrimos que REINFORCE com Estimativa de Vantagem Relativa de Grupo (GRAE) pode convergir para o ótimo global em condições não descontadas, mas a combinação de PPO e GRAE quebra a propriedade original de melhoria monotônica do PPO. Além disso, demonstramos que os principais algoritmos de RL fundamentais não podem alcançar simultaneamente a ausência de crítico (critic-free) e garantias de convergência em cenários multi-turno. Para resolver isso, propomos o SeeUPO (Sequence-level Sequential Update Policy Optimization), uma abordagem sem crítico com garantias de convergência para interações multi-turno. O SeeUPO modela a interação multi-turno como problemas de bandido multi-agente executados sequencialmente. Por meio de atualizações de política sequenciais turno a turno na ordem de execução reversa, ele garante melhoria monotônica e convergência para a solução ótima global via indução reversa. Experimentações no AppWorld e BFCL v4 demonstram melhorias substanciais do SeeUPO sobre os algoritmos fundamentais existentes: ganhos relativos de 43,3%-54,6% no Qwen3-14B e 24,1%-41,9% no Qwen2.5-14B (média entre benchmarks), juntamente com estabilidade de treinamento superior.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.

SeeUPO: Aprendizado por Reforço Agencial em Nível de Sequência com Garantias de Convergência

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Resumo

Support