Арена рассуждений: Турниры трассировки, когда проверяемые вознаграждения оказываются недостаточными

Аннотация

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) стало ведущей парадигмой для повышения способности к рассуждению больших языковых моделей с помощью контроля, основанного на результатах. Однако проверяемые вознаграждения часто становятся неинформативными на уровне группы: когда все сэмплированные трассы для данного запроса получают одинаковое вознаграждение, оценка относительного преимущества в группе не даёт градиентного сигнала, хотя эти трассы могут существенно различаться по качеству рассуждения. Мы предлагаем Reasoning Arena — адаптивную обучающую структуру, которая направляет такие неразнообразные группы вознаграждений в систему оценщиков вместо их отбрасывания. Помимо проверки финального ответа, Reasoning Arena организует турниры трасс, где цепочки рассуждений сравниваются попарно, чтобы выявить более детальные предпочтения внутри группы, преобразуя качество рассуждений в богатые относительные сигналы вознаграждения. Чтобы сделать оценку вознаграждения эффективной, вместо исчерпывающего сравнения каждой пары каждая новая трасса оценивается относительно небольшого динамически обновляемого пула ранее сгенерированных трасс, выступающих в качестве якорей, что позволяет эффективно установить относительный порядок. Затем мы подгоняем модель Брэдли-Терри на неполном графе сравнений, что обеспечивает масштабируемую интеграцию с обучением с подкреплением без квадратичных попарных сравнений. Эмпирические результаты показывают, что Reasoning Arena последовательно превосходит базовую линию RLVR в среднем на 7,6% в задачах соревновательной математики и программирования. Превращая иначе бесполезные образцы с нулевым преимуществом в полезные обновления градиента, наш метод ускоряет обучение на 27–41%, сокращает вычислительные затраты на генерацию почти на 50% и существенно повышает общую производительность рассуждений.

English

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.