ChatPaper.aiChatPaper

JudgeRLVR: 効率的な推論のための「まず判定、その後生成」アプローチ

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

January 13, 2026
著者: Jiangshan Duo, Hanyu Li, Hailin Zhang, Yudong Wang, Sujian Li, Liang Zhao
cs.AI

要旨

検証可能な報酬による強化学習(RLVR)は、大規模言語モデルにおける推論の標準的パラダイムとなっている。しかし、最終回答の正しさのみを最適化すると、モデルは構造化された計画ではなく網羅的な試行錯誤戦略に依存し、無目的で冗長な探索に陥りがちである。文長ペナルティなどのヒューリスティックな制約は冗長性を低減できるが、必須の推論ステップを切り捨てることで、効率性と検証可能性の間の困難なトレードオフを生み出す。本論文では、識別能力が効率的な生成の前提条件であると主張する:有効な解を区別することを学習することで、モデルは探索空間を刈り込むガイダンス信号を内在化できる。我々はJudgeRLVRという、判定段階と生成段階からなる二段階のパラダイムを提案する。第一段階では、検証可能な解答付きの解答レスポンスを判定するようにモデルを訓練する。第二段階では、判定モデルから初期化した基本的な生成RLVRで同一モデルをファインチューニングする。数学領域の同一訓練データを用いた従来のRLVRと比較し、JudgeRLVRはQwen3-30B-A3Bにおいて品質と効率性のより良いトレードオフを達成する:分野内の数学問題では、平均生成長を-42%削減しつつ平均精度で約+3.7ポイントの向上を実現し、分野外ベンチマークでは平均精度で約+4.5ポイントの改善を示し、強化された一般化能力を実証する。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a standard paradigm for reasoning in Large Language Models. However, optimizing solely for final-answer correctness often drives models into aimless, verbose exploration, where they rely on exhaustive trial-and-error tactics rather than structured planning to reach solutions. While heuristic constraints like length penalties can reduce verbosity, they often truncate essential reasoning steps, creating a difficult trade-off between efficiency and verification. In this paper, we argue that discriminative capability is a prerequisite for efficient generation: by learning to distinguish valid solutions, a model can internalize a guidance signal that prunes the search space. We propose JudgeRLVR, a two-stage judge-then-generate paradigm. In the first stage, we train the model to judge solution responses with verifiable answers. In the second stage, we fine-tune the same model with vanilla generating RLVR initialized from the judge. Compared to Vanilla RLVR using the same math-domain training data, JudgeRLVR achieves a better quality--efficiency trade-off for Qwen3-30B-A3B: on in-domain math, it delivers about +3.7 points average accuracy gain with -42\% average generation length; on out-of-domain benchmarks, it delivers about +4.5 points average accuracy improvement, demonstrating enhanced generalization.
PDF50January 15, 2026