SeeUPO: Агентное обучение с подкреплением на уровне последовательностей с гарантиями сходимости

Аннотация

Обучение с подкреплением (RL) стало преобладающей парадигмой для обучения ИИ-агентов на основе больших языковых моделей (LLM). Однако существующие базовые алгоритмы RL не имеют проверенных гарантий сходимости в сценариях с агентами, особенно в многоходовых настройках, что может приводить к нестабильности обучения и невозможности сходимости к оптимальным политикам. В данной статье мы систематически анализируем, как различные комбинации механизмов обновления политик и методов оценки преимуществ влияют на свойства сходимости в одно- и многоходовых сценариях. Мы обнаруживаем, что алгоритм REINFORCE с групповой относительной оценкой преимуществ (GRAE) может сходиться к глобальному оптимуму в условиях без дисконтирования, однако комбинация PPO и GRAE нарушает исходное свойство монотонного улучшения PPO. Кроме того, мы показываем, что основные базовые алгоритмы RL не могут одновременно обеспечить как отсутствие критики, так и гарантии сходимости в многоходовых сценариях. Для решения этой проблемы мы предлагаем SeeUPO (Sequence-level Sequential Update Policy Optimization) — подход без критика с гарантиями сходимости для многоходовых взаимодействий. SeeUPO моделирует многоходовое взаимодействие как последовательно исполняемые многорукие бандиты. Посредством пошагового последовательного обновления политик в обратном порядке выполнения алгоритм обеспечивает монотонное улучшение и сходимость к глобальному оптимальному решению с помощью обратной индукции. Эксперименты на AppWorld и BFCL v4 демонстрируют существенное улучшение SeeUPO по сравнению с существующими базовыми алгоритмами: относительный прирост составляет 43,3%–54,6% для Qwen3-14B и 24,1%–41,9% для Qwen2.5-14B (в среднем по бенчмаркам), наряду с превосходной стабильностью обучения.

English

Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.

SeeUPO: Агентное обучение с подкреплением на уровне последовательностей с гарантиями сходимости

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Аннотация

Support