Arena de Razonamiento: Torneos de Traza Cuando las Recompensas Verificables Quedan Cortas

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma líder para mejorar la capacidad de razonamiento de los modelos de lenguaje de gran tamaño mediante la supervisión basada en resultados. Sin embargo, las recompensas verificables suelen volverse poco informativas a nivel de grupo: cuando todas las trazas muestreadas de un mismo prompt reciben recompensas idénticas, la estimación de ventaja relativa al grupo no proporciona ninguna señal de gradiente, a pesar de que las trazas pueden diferir sustancialmente en calidad de razonamiento. Proponemos Reasoning Arena, un marco de entrenamiento adaptativo que redirige estos grupos de recompensas no diversas hacia un sistema de evaluación en lugar de descartarlos. Más allá de examinar la respuesta final, Reasoning Arena construye torneos de trazas, donde las trazas de razonamiento se comparan cara a cara para exponer preferencias más detalladas dentro del grupo, convirtiendo la calidad del razonamiento en señales de recompensa relativas ricas. Para hacer eficiente la estimación de recompensas, en lugar de comparar exhaustivamente cada par, cada nueva traza se evalúa frente a un pequeño conjunto dinámico de trazas generadas previamente que actúan como anclas, estableciendo así un rango relativo de manera eficiente. Luego ajustamos un modelo de Bradley-Terry sobre el grafo de comparaciones incompletas, lo que permite una integración escalable con RL sin necesidad de comparaciones por pares cuadráticas. Los resultados empíricos demuestran que Reasoning Arena supera consistentemente al baseline de RLVR en un 7,6% en promedio en los benchmarks de matemáticas competitivas y programación. Al convertir muestras que de otro modo se desperdiciarían con ventaja nula en actualizaciones de gradiente útiles, nuestro método acelera el entrenamiento entre un 27% y un 41%, ahorra casi un 50% de cómputo de generación y mejora sustancialmente el rendimiento general del razonamiento.

English

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.