ARLArena: Un Marco Unificado para el Aprendizaje por Refuerzo Agéntico Estable

Resumen

El aprendizaje por refuerzo agéntico (ARL) ha ganado rápidamente atención como un paradigma prometedor para entrenar agentes que resuelvan tareas interactivas complejas y multi-etapa. A pesar de los alentadores resultados iniciales, el ARL sigue siendo altamente inestable, lo que a menudo conduce al colapso del entrenamiento. Esta inestabilidad limita la escalabilidad a entornos más grandes y horizontes de interacción más largos, y restringe la exploración sistemática de las opciones de diseño algorítmico. En este artículo, primero proponemos ARLArena, una receta de entrenamiento estable y un marco de análisis sistemático que examina la estabilidad del entrenamiento en un entorno controlado y reproducible. ARLArena construye primero un banco de pruebas limpio y estandarizado. Luego, descomponemos el gradiente de la política en cuatro dimensiones de diseño centrales y evaluamos el rendimiento y la estabilidad de cada dimensión. A través de este análisis de grano fino, destilamos una perspectiva unificada sobre el ARL y proponemos SAMPO, un método de optimización de políticas agénticas estable diseñado para mitigar las fuentes dominantes de inestabilidad en el ARL. Empíricamente, SAMPO logra un entrenamiento consistentemente estable y un fuerte rendimiento en diversas tareas agénticas. En general, este estudio proporciona una perspectiva unificada del gradiente de la política para el ARL y ofrece una guía práctica para construir pipelines de entrenamiento de agentes basados en LLM que sean estables y reproducibles.

English

Agentic reinforcement learning (ARL) has rapidly gained attention as a promising paradigm for training agents to solve complex, multi-step interactive tasks. Despite encouraging early results, ARL remains highly unstable, often leading to training collapse. This instability limits scalability to larger environments and longer interaction horizons, and constrains systematic exploration of algorithmic design choices. In this paper, we first propose ARLArena, a stable training recipe and systematic analysis framework that examines training stability in a controlled and reproducible setting. ARLArena first constructs a clean and standardized testbed. Then, we decompose policy gradient into four core design dimensions and assess the performance and stability of each dimension. Through this fine-grained analysis, we distill a unified perspective on ARL and propose SAMPO, a stable agentic policy optimization method designed to mitigate the dominant sources of instability in ARL. Empirically, SAMPO achieves consistently stable training and strong performance across diverse agentic tasks. Overall, this study provides a unifying policy gradient perspective for ARL and offers practical guidance for building stable and reproducible LLM-based agent training pipelines.

ARLArena: Un Marco Unificado para el Aprendizaje por Refuerzo Agéntico Estable

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Resumen

Support