JudgeRLVR: Сначала оценить, затем генерировать для эффективных рассуждений

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало стандартной парадигмой для логических рассуждений в больших языковых моделях. Однако оптимизация исключительно на правильность конечного ответа часто заставляет модели прибегать к бесцельному, многословному исследованию, когда они полагаются на тактику исчерпывающего перебора, а не на структурированное планирование для достижения решений. Хотя эвристические ограничения, такие как штрафы за длину, могут снизить многословие, они часто обрезают важные шаги рассуждений, создавая сложный компромисс между эффективностью и верифицируемостью. В данной статье мы утверждаем, что дискриминативная способность является предпосылкой для эффективной генерации: научившись отличать верные решения, модель может усвоить направляющий сигнал, который сокращает пространство поиска. Мы предлагаем JudgeRLVR, двухэтапную парадигму «сначала оценить, затем сгенерировать». На первом этапе мы обучаем модель оценивать ответы-решения с верифицируемыми ответами. На втором этапе мы дообучаем ту же модель с помощью стандартного генеративного RLVR, инициализированного из состояния «оценщика». По сравнению с базовым RLVR, использующим те же обучающие данные из математической области, JudgeRLVR достигает лучшего компромисса между качеством и эффективностью для модели Qwen3-30B-A3B: на внутрипредметных математических задачах она демонстрирует прирост средней точности примерно на +3,7 пункта при сокращении средней длины генерации на 42%; на внешних бенчмарках она показывает улучшение средней точности примерно на +4,5 пункта, что свидетельствует о повышенной способности к обобщению.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become a standard paradigm for reasoning in Large Language Models. However, optimizing solely for final-answer correctness often drives models into aimless, verbose exploration, where they rely on exhaustive trial-and-error tactics rather than structured planning to reach solutions. While heuristic constraints like length penalties can reduce verbosity, they often truncate essential reasoning steps, creating a difficult trade-off between efficiency and verification. In this paper, we argue that discriminative capability is a prerequisite for efficient generation: by learning to distinguish valid solutions, a model can internalize a guidance signal that prunes the search space. We propose JudgeRLVR, a two-stage judge-then-generate paradigm. In the first stage, we train the model to judge solution responses with verifiable answers. In the second stage, we fine-tune the same model with vanilla generating RLVR initialized from the judge. Compared to Vanilla RLVR using the same math-domain training data, JudgeRLVR achieves a better quality--efficiency trade-off for Qwen3-30B-A3B: on in-domain math, it delivers about +3.7 points average accuracy gain with -42\% average generation length; on out-of-domain benchmarks, it delivers about +4.5 points average accuracy improvement, demonstrating enhanced generalization.

JudgeRLVR: Сначала оценить, затем генерировать для эффективных рассуждений

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Аннотация

Support