ARLArena: Унифицированная платформа для стабильного агентного обучения с подкреплением

Аннотация

Агентное обучение с подкреплением (ARL) быстро привлекло внимание как перспективная парадигма для обучения агентов решению сложных многошаговых интерактивных задач. Несмотря на обнадеживающие первоначальные результаты, ARL остается крайне нестабильным, часто приводя к коллапсу обучения. Эта нестабильность ограничивает масштабируемость в более крупных средах и на более длительных горизонтах взаимодействия, а также сдерживает систематическое исследование вариантов алгоритмического дизайна. В данной статье мы сначала предлагаем ARLArena — стабильный рецепт обучения и framework для системного анализа, который исследует устойчивость обучения в контролируемых и воспроизводимых условиях. ARLArena сначала создает чистый и стандартизированный тестовый стенд. Затем мы декомпозируем политику градиента на четыре ключевых измерения дизайна и оцениваем производительность и стабильность каждого измерения. Благодаря этому детализированному анализу мы формулируем унифицированный взгляд на ARL и предлагаем SAMPO — стабильный метод оптимизации агентной политики, предназначенный для смягчения основных источников нестабильности в ARL. Экспериментально SAMPO демонстрирует стабильное обучение и высокую производительность на разнообразных агентных задачах. В целом, данное исследование предлагает унифицированную перспективу политики градиента для ARL и предоставляет практические рекомендации для построения стабильных и воспроизводимых конвейеров обучения агентов на основе больших языковых моделей.

English

Agentic reinforcement learning (ARL) has rapidly gained attention as a promising paradigm for training agents to solve complex, multi-step interactive tasks. Despite encouraging early results, ARL remains highly unstable, often leading to training collapse. This instability limits scalability to larger environments and longer interaction horizons, and constrains systematic exploration of algorithmic design choices. In this paper, we first propose ARLArena, a stable training recipe and systematic analysis framework that examines training stability in a controlled and reproducible setting. ARLArena first constructs a clean and standardized testbed. Then, we decompose policy gradient into four core design dimensions and assess the performance and stability of each dimension. Through this fine-grained analysis, we distill a unified perspective on ARL and propose SAMPO, a stable agentic policy optimization method designed to mitigate the dominant sources of instability in ARL. Empirically, SAMPO achieves consistently stable training and strong performance across diverse agentic tasks. Overall, this study provides a unifying policy gradient perspective for ARL and offers practical guidance for building stable and reproducible LLM-based agent training pipelines.

ARLArena: Унифицированная платформа для стабильного агентного обучения с подкреплением

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Аннотация

Support