ChatPaper.aiChatPaper

JudgeRLVR: 효율적 추론을 위한 판단 후 생성 접근법

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

January 13, 2026
저자: Jiangshan Duo, Hanyu Li, Hailin Zhang, Yudong Wang, Sujian Li, Liang Zhao
cs.AI

초록

검증 가능한 보상 강화 학습(RLVR)은 대규모 언어 모델의 추론을 위한 표준 패러다임으로 자리 잡았습니다. 그러나 최종 답변의 정확성만을 최적화하면 모델이 구조화된 계획 없이 무분별한 시행착오 전략에 의존하는 장황하고 방향성 없는 탐색에 빠지기 쉽습니다. 길이 제한과 같은 경험적 제약은 장황함을 줄일 수 있지만, 필수적인 추론 단계를 생략하게 하여 효율성과 검증 가능성 사이의 어려운 상충 관계를 만들어냅니다. 본 논문에서는 판별 능력이 효율적 생성의 전제 조건이라고 주장합니다. 즉, 모델이 유효한 해결책을 구별하는 법을 학습함으로써 탐색 공간을 정제하는 안내 신호를 내재화할 수 있습니다. 우리는 2단계 판단 후 생성 패러다임인 JudgeRLVR을 제안합니다. 첫 번째 단계에서는 모델이 검증 가능한 답변이 포함된 솔루션 응답을 판단하도록 학습시킵니다. 두 번째 단계에서는 판단 모델로 초기화된 기본 생성 RLVR을 사용하여 동일한 모델을 미세 조정합니다. 동일한 수학 도메인 훈련 데이터를 사용하는 기본 RLVR과 비교했을 때, JudgeRLVR은 Qwen3-30B-A3B 모델에서 더 나은 품질-효율성 균형을 달성했습니다: 동일 도메인 수학 문제에서는 평균 생성 길이를 42% 줄이면서 평균 정확도를 약 3.7점 향상시켰으며, 다른 도메인 벤치마크에서는 평균 정확도를 약 4.5점 향상시켜 향상된 일반화 능력을 입증했습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a standard paradigm for reasoning in Large Language Models. However, optimizing solely for final-answer correctness often drives models into aimless, verbose exploration, where they rely on exhaustive trial-and-error tactics rather than structured planning to reach solutions. While heuristic constraints like length penalties can reduce verbosity, they often truncate essential reasoning steps, creating a difficult trade-off between efficiency and verification. In this paper, we argue that discriminative capability is a prerequisite for efficient generation: by learning to distinguish valid solutions, a model can internalize a guidance signal that prunes the search space. We propose JudgeRLVR, a two-stage judge-then-generate paradigm. In the first stage, we train the model to judge solution responses with verifiable answers. In the second stage, we fine-tune the same model with vanilla generating RLVR initialized from the judge. Compared to Vanilla RLVR using the same math-domain training data, JudgeRLVR achieves a better quality--efficiency trade-off for Qwen3-30B-A3B: on in-domain math, it delivers about +3.7 points average accuracy gain with -42\% average generation length; on out-of-domain benchmarks, it delivers about +4.5 points average accuracy improvement, demonstrating enhanced generalization.
PDF50January 15, 2026