ChatPaper.aiChatPaper

ArenaRL: Escalando el Aprendizaje por Refuerzo para Agentes de Entorno Abierto mediante Clasificación Relativa Basada en Torneos

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

January 10, 2026
Autores: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI

Resumen

El aprendizaje por refuerzo ha mejorado sustancialmente el rendimiento de los agentes de LLM en tareas con resultados verificables, pero aún lucha en tareas de agentes de final abierto con vastos espacios de solución (por ejemplo, la planificación de viajes complejos). Debido a la ausencia de una verdad fundamental objetiva para estas tareas, los algoritmos de RL actuales dependen en gran medida de modelos de recompensa que asignan puntuaciones escalares a respuestas individuales. Sostenemos que dicha puntuación puntual sufre de un colapso de discriminación inherente: el modelo de recompensa lucha por distinguir ventajas sutiles entre diferentes trayectorias, lo que resulta en que las puntuaciones dentro de un grupo se comprimen en un rango estrecho. En consecuencia, la señal de recompensa efectiva queda dominada por el ruido del modelo de recompensa, lo que lleva a un estancamiento en la optimización. Para abordar esto, proponemos ArenaRL, un paradigma de aprendizaje por refuerzo que cambia de la puntuación escalar puntual a la clasificación relativa intra-grupo. ArenaRL introduce un mecanismo de evaluación por pares consciente del proceso, empleando rúbricas multinivel para asignar puntuaciones relativas de grano fino a las trayectorias. Adicionalmente, construimos una arena adversarial intra-grupo y diseñamos un esquema de clasificación basado en torneos para obtener señales de ventaja estables. Los resultados empíricos confirman que el esquema de eliminación simple sembrado que construimos logra una precisión de estimación de ventaja casi equivalente a las comparaciones por pares completas con complejidad O(N²), mientras opera con solo complejidad O(N), logrando un equilibrio óptimo entre eficiencia y precisión. Además, para abordar la falta de benchmarks de ciclo completo para agentes de final abierto, construimos Open-Travel y Open-DeepResearch, dos benchmarks de alta calidad que presentan una canalización integral que cubre SFT, entrenamiento RL y evaluación multidimensional. Experimentos extensivos muestran que ArenaRL supera sustancialmente los baselines de RL estándar, permitiendo a los agentes de LLM generar soluciones más robustas para tareas complejas del mundo real.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.
PDF301January 15, 2026