JudgeRLVR: Giudicare Prima, Generare Dopo per un Ragionamento Efficiente

Abstract

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato un paradigma standard per il ragionamento nei Modelli Linguistici di Grande Dimensione. Tuttavia, ottimizzare esclusivamente per la correttezza della risposta finale spinge spesso i modelli verso un'esplorazione verbosa e senza meta, in cui fanno affidamento su tattiche di prova ed errore esaustive piuttosto che su una pianificazione strutturata per raggiungere le soluzioni. Sebbene vincoli euristici come le penalità di lunghezza possano ridurre la verbosità, essi spesso troncano passaggi di ragionamento essenziali, creando un difficile compromesso tra efficienza e verificabilità. In questo articolo, sosteniamo che la capacità discriminativa è un prerequisito per una generazione efficiente: imparando a distinguere le soluzioni valide, un modello può interiorizzare un segnale di guida che pota lo spazio di ricerca. Proponiamo JudgeRLVR, un paradigma a due stadi "giudica-poi-genera". Nella prima fase, addestriamo il modello a giudicare risposte risolutive con risposte verificabili. Nella seconda fase, perfezioniamo lo stesso modello con un RLVR generativo classico, inizializzato a partire dal "giudice". Rispetto al Vanilla RLVR che utilizza gli stessi dati di addestramento nel dominio matematico, JudgeRLVR raggiunge un migliore compromesso qualità-efficienza per Qwen3-30B-A3B: in matematica in-dominio, fornisce un guadagno medio di accuratezza di circa +3,7 punti con una lunghezza di generazione media ridotta del -42%; su benchmark out-of-domain, fornisce un miglioramento medio di accuratezza di circa +4,5 punti, dimostrando una generalizzazione potenziata.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become a standard paradigm for reasoning in Large Language Models. However, optimizing solely for final-answer correctness often drives models into aimless, verbose exploration, where they rely on exhaustive trial-and-error tactics rather than structured planning to reach solutions. While heuristic constraints like length penalties can reduce verbosity, they often truncate essential reasoning steps, creating a difficult trade-off between efficiency and verification. In this paper, we argue that discriminative capability is a prerequisite for efficient generation: by learning to distinguish valid solutions, a model can internalize a guidance signal that prunes the search space. We propose JudgeRLVR, a two-stage judge-then-generate paradigm. In the first stage, we train the model to judge solution responses with verifiable answers. In the second stage, we fine-tune the same model with vanilla generating RLVR initialized from the judge. Compared to Vanilla RLVR using the same math-domain training data, JudgeRLVR achieves a better quality--efficiency trade-off for Qwen3-30B-A3B: on in-domain math, it delivers about +3.7 points average accuracy gain with -42\% average generation length; on out-of-domain benchmarks, it delivers about +4.5 points average accuracy improvement, demonstrating enhanced generalization.

JudgeRLVR: Giudicare Prima, Generare Dopo per un Ragionamento Efficiente

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Abstract

Support