ArenaRL: Масштабирование обучения с подкреплением для открытых агентов посредством турнирного относительного ранжирования
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
January 10, 2026
Авторы: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI
Аннотация
Обучение с подкреплением значительно повысило производительность агентов на основе больших языковых моделей (LLM) при выполнении задач с проверяемыми результатами, однако оно по-прежнему испытывает трудности с открытыми задачами для агентов, имеющими обширные пространства решений (например, сложное планирование путешествий). Из-за отсутствия объективной эталонной истины для таких задач современные алгоритмы RL в значительной степени полагаются на модели вознаграждения, которые присваивают отдельным ответам скалярные оценки. Мы утверждаем, что такое поточечное оценивание страдает от присущего ему *коллапса дискриминации*: модель вознаграждения с трудом различает subtle преимущества среди различных траекторий, в результате чего оценки внутри группы сжимаются в узкий диапазон. Следовательно, эффективный сигнал вознаграждения начинает доминироваться шумом от модели вознаграждения, что приводит к стагнации оптимизации. Для решения этой проблемы мы предлагаем ArenaRL — парадигму обучения с подкреплением, которая переходит от поточечного скалярного оценивания к относительному ранжированию внутри группы. ArenaRL вводит механизм попарной оценки, учитывающий процесс, и использует многоуровневые рубрики для присвоения траекториям детализированных относительных оценок. Кроме того, мы создаем внутригрупповую адверсарную арену и разрабатываем турнирную схему ранжирования для получения стабильных сигналов преимущества. Эмпирические результаты подтверждают, что построенная схема с выбыванием после поражения с заданными начальными условиями достигает почти эквивалентной точности оценки преимущества по сравнению с полными попарными сравнениями со сложностью O(N²), при этом работая со сложностью всего O(N), находя оптимальный баланс между эффективностью и точностью. Более того, для решения проблемы отсутствия benchmarks полного цикла для открытых агентов мы создали Open-Travel и Open-DeepResearch — два высококачественных benchmarks, характеризующихся комплексным конвейером, охватывающим SFT, RL-обучение и многомерную оценку. Многочисленные эксперименты показывают, что ArenaRL существенно превосходит стандартные RL-базисы, позволяя агентам на основе LLM генерировать более надежные решения для сложных реальных задач.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.