ChatPaper.aiChatPaper

ArenaRL: Escalonando o RL para Agentes de Escopo Aberto via Classificação Relacional Baseada em Torneios

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

January 10, 2026
Autores: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI

Resumo

O aprendizado por reforço melhorou substancialmente o desempenho de agentes de LLM em tarefas com resultados verificáveis, mas ainda enfrenta dificuldades em tarefas de agente de natureza aberta com vastos espaços de solução (por exemplo, planejamento complexo de viagens). Devido à ausência de uma verdade fundamental objetiva para essas tarefas, os algoritmos de RL atuais dependem amplamente de modelos de recompensa que atribuem pontuações escalares a respostas individuais. Nós argumentamos que essa pontuação pontual sofre de um colapso de discriminação inerente: o modelo de recompensa luta para distinguir vantagens sutis entre diferentes trajetórias, resultando em escores dentro de um grupo sendo comprimidos em uma faixa estreita. Consequentemente, o sinal de recompensa efetivo torna-se dominado pelo ruído do modelo de recompensa, levando à estagnação da otimização. Para resolver isso, propomos o ArenaRL, um paradigma de aprendizado por reforço que muda da pontuação escalar pontual para a classificação relativa intra-grupo. O ArenaRL introduz um mecanismo de avaliação pareada consciente do processo, empregando rubricas multinível para atribuir escores relativos de granularidade fina às trajetórias. Adicionalmente, construímos uma arena adversarial intra-grupo e elaboramos um esquema de classificação baseado em torneios para obter sinais de vantagem estáveis. Resultados empíricos confirmam que o esquema de eliminação simples inicial construído alcança uma precisão de estimativa de vantagem quase equivalente às comparações pareadas completas com complexidade O(N²), enquanto opera com apenas complexidade O(N), atingindo um equilíbrio ideal entre eficiência e precisão. Além disso, para abordar a carência de benchmarks de ciclo completo para agentes de natureza aberta, construímos o Open-Travel e o Open-DeepResearch, dois benchmarks de alta qualidade que apresentam um pipeline abrangente cobrando SFT, treinamento de RL e avaliação multidimensional. Experimentos extensivos mostram que o ArenaRL supera substancialmente as linhas de base padrão de RL, permitindo que agentes de LLM gerem soluções mais robustas para tarefas complexas do mundo real.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.
PDF522February 11, 2026