Reasoning Arena: Torneios de Rastreamento Quando as Recompensas Verificáveis São Insuficientes

Resumo

Aprendizagem por reforço com recompensas verificáveis (RLVR) tornou-se um paradigma líder para melhorar a capacidade de raciocínio de grandes modelos de linguagem por meio de supervisão baseada em resultados. No entanto, recompensas verificáveis frequentemente se tornam não informativas no nível do grupo: quando todos os traços amostrados de um determinado prompt recebem recompensas idênticas, a estimativa de vantagem relativa ao grupo não fornece sinal de gradiente, mesmo que os traços possam diferir substancialmente em qualidade de raciocínio. Propomos o Reasoning Arena, um framework de treinamento adaptativo que direciona esses grupos de recompensas não diversificadas para um sistema de julgamento, em vez de descartá-los. Além de examinar a resposta final, o Reasoning Arena constrói torneios de traços, onde traços de raciocínio são comparados frente a frente para expor preferências mais refinadas dentro do grupo, convertendo a qualidade do raciocínio em sinais de recompensa relativa ricos. Para tornar a estimativa de recompensa eficiente, em vez de comparar exaustivamente cada par, cada novo traço é avaliado contra um pequeno conjunto dinamicamente atualizado de traços gerados anteriormente, usados como âncoras, para estabelecer eficientemente um ranking relativo. Em seguida, ajustamos um modelo de Bradley-Terry no grafo de comparações incompletas, permitindo integração escalável com RL sem comparações quadráticas entre pares. Resultados empíricos demonstram que o Reasoning Arena supera consistentemente a linha de base RLVR em 7,6% em média em competições de matemática e benchmarks de codificação. Ao converter amostras de vantagem zero que seriam desperdiçadas em atualizações de gradiente úteis, nosso método acelera o treinamento em 27% a 41%, economiza quase 50% do custo computacional de geração e melhora substancialmente o desempenho geral de raciocínio.

English

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.