JudgeRLVR: Julgar Primeiro, Gerar Segundo para um Raciocínio Eficiente

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um paradigma padrão para o raciocínio em Modelos de Linguagem de Grande Porte. No entanto, otimizar apenas para a correção da resposta final frequentemente leva os modelos a uma exploração sem rumo e verbosa, na qual eles dependem de táticas exaustivas de tentativa e erro, em vez de planejamento estruturado, para chegar a soluções. Embora restrições heurísticas, como penalidades de comprimento, possam reduzir a verbosidade, elas frequentemente truncam etapas de raciocínio essenciais, criando uma difícil compensação entre eficiência e verificação. Neste artigo, argumentamos que a capacidade discriminativa é um pré-requisito para a geração eficiente: ao aprender a distinguir soluções válidas, um modelo pode internalizar um sinal de orientação que poda o espaço de busca. Propomos o JudgeRLVR, um paradigma de julgar-depois-gerar em dois estágios. No primeiro estágio, treinamos o modelo para julgar respostas de soluções com respostas verificáveis. No segundo estágio, afinamos o mesmo modelo com o RLVR de geração padrão, inicializado a partir do "juiz". Em comparação com o RLVR Padrão usando os mesmos dados de treinamento do domínio matemático, o JudgeRLVR alcança uma melhor compensação qualidade-eficiência para o Qwen3-30B-A3B: em matemática dentro do domínio, ele proporciona um ganho médio de precisão de cerca de +3,7 pontos com uma redução de -42% no comprimento médio de geração; em benchmarks fora do domínio, ele proporciona uma melhoria média de precisão de cerca de +4,5 pontos, demonstrando uma generalização aprimorada.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become a standard paradigm for reasoning in Large Language Models. However, optimizing solely for final-answer correctness often drives models into aimless, verbose exploration, where they rely on exhaustive trial-and-error tactics rather than structured planning to reach solutions. While heuristic constraints like length penalties can reduce verbosity, they often truncate essential reasoning steps, creating a difficult trade-off between efficiency and verification. In this paper, we argue that discriminative capability is a prerequisite for efficient generation: by learning to distinguish valid solutions, a model can internalize a guidance signal that prunes the search space. We propose JudgeRLVR, a two-stage judge-then-generate paradigm. In the first stage, we train the model to judge solution responses with verifiable answers. In the second stage, we fine-tune the same model with vanilla generating RLVR initialized from the judge. Compared to Vanilla RLVR using the same math-domain training data, JudgeRLVR achieves a better quality--efficiency trade-off for Qwen3-30B-A3B: on in-domain math, it delivers about +3.7 points average accuracy gain with -42\% average generation length; on out-of-domain benchmarks, it delivers about +4.5 points average accuracy improvement, demonstrating enhanced generalization.

JudgeRLVR: Julgar Primeiro, Gerar Segundo para um Raciocínio Eficiente

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Resumo

Support