SeeUPO: Aprendizaje por Refuerzo Agéntico a Nivel de Secuencia con Garantías de Convergencia

Resumen

El aprendizaje por refuerzo (RL) se ha consolidado como el paradigma predominante para entrenar agentes de IA basados en modelos de lenguaje grandes (LLM). Sin embargo, los algoritmos RL centrales existentes carecen de garantías de convergencia verificadas en escenarios agentivos, especialmente en entornos de múltiples turnos, lo que puede provocar inestabilidad en el entrenamiento y fallos para converger a políticas óptimas. En este artículo, analizamos sistemáticamente cómo diferentes combinaciones de mecanismos de actualización de políticas y métodos de estimación de ventajas afectan a las propiedades de convergencia en escenarios de uno/múltiples turnos. Encontramos que REINFORCE con Estimación de Ventaja Relativa Grupal (GRAE) puede converger al óptimo global bajo condiciones no descontadas, pero la combinación de PPO y GRAE rompe la propiedad original de mejora monótona de PPO. Además, demostramos que los algoritmos RL centrales principales no pueden lograr simultáneamente ser libres de crítico y tener garantías de convergencia en escenarios de múltiples turnos. Para abordar esto, proponemos SeeUPO (Optimización de Políticas de Actualización Secuencial a Nivel de Secuencia), un enfoque libre de crítico con garantías de convergencia para interacciones multi-turno. SeeUPO modela la interacción multi-turno como problemas de bandido multi-agente ejecutados secuencialmente. Mediante actualizaciones secuenciales de políticas turno por turno en orden de ejecución inverso, garantiza una mejora monótona y la convergencia a la solución óptima global mediante inducción hacia atrás. Los experimentos en AppWorld y BFCL v4 demuestran las mejoras sustanciales de SeeUPO sobre los algoritmos centrales existentes: ganancias relativas del 43.3%-54.6% en Qwen3-14B y del 24.1%-41.9% en Qwen2.5-14B (promediado entre benchmarks), junto con una estabilidad de entrenamiento superior.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.