V_1: Unificazione di Generazione e Autoverifica per Ragionatori Paralleli

Abstract

Il ridimensionamento al momento del test per compiti di ragionamento complesso dimostra che sfruttare la potenza di calcolo durante l'inferenza, mediante metodi come il campionamento indipendente e l'aggregazione di più soluzioni, produce risultati significativamente migliori. Tuttavia, un collo di bottiglia critico è la verifica: il campionamento è efficace solo se le soluzioni corrette possono essere identificate in modo affidabile tra i candidati. Mentre gli approcci esistenti valutano tipicamente i candidati in modo indipendente tramite punteggi scalari, noi dimostriamo che i modelli sono notevolmente più abili nell'autoverifica a coppie. Sfruttando questa intuizione, introduciamo V_1, un framework che unifica generazione e verifica attraverso un efficiente ranking a coppie. V_1 comprende due componenti: V_1-Infer, un algoritmo guidato dall'incertezza che utilizza un ranking di tipo torneo per allocare dinamicamente le risorse computazionali di autoverifica alle coppie di candidati la cui correttezza relativa è più incerta; e V_1-PairRL, un framework di apprendimento per rinforzo che addestra congiuntamente un unico modello sia come generatore che come autoverificatore a coppie, garantendo che il verificatore si adatti alla distribuzione in evoluzione del generatore. Su benchmark di generazione di codice (LiveCodeBench, CodeContests, SWE-Bench) e di ragionamento matematico (AIME, HMMT), V_1-Infer migliora la Pass@1 fino al 10% rispetto alla verifica puntuale e supera i recenti metodi di ridimensionamento al test, risultando al contempo significativamente più efficiente. Inoltre, V_1-PairRL ottiene guadagni di ridimensionamento al test del 7-9% rispetto all'RL standard e all'addestramento congiunto puntuale, e migliora la Pass@1 base fino all'8,7% rispetto all'RL standard in un contesto di generazione di codice.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1: Unificazione di Generazione e Autoverifica per Ragionatori Paralleli

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Abstract

Support