V_1: Unificatie van Generatie en Zelfverificatie voor Parallelle Redeneerders

Samenvatting

Test-time scaling voor complexe redeneertaken toont aan dat het benutten van rekencapaciteit tijdens de inferentie – bijvoorbeeld door het onafhankelijk bemonsteren en aggregeren van meerdere oplossingen – leidt tot aanzienlijk betere taakresultaten. Een kritieke bottleneck is echter verificatie: bemonstering is alleen effectief als correcte oplossingen betrouwbaar kunnen worden geïdentificeerd tussen de kandidaten. Terwijl bestaande benaderingen kandidaten doorgaans onafhankelijk evalueren via scalaire scores, tonen wij aan dat modellen aanzienlijk sterker zijn in paarsgewijze zelfverificatie. Gebruikmakend van dit inzicht introduceren wij V_1, een raamwerk dat generatie en verificatie verenigt door middel van efficiënte paarsgewijze rangschikking. V_1 bestaat uit twee componenten: V_1-Infer, een onzekerheidsgestuurd algoritme dat een op toernooien gebaseerde rangschikking gebruikt om rekenkracht voor zelfverificatie dynamisch toe te wijzen aan kandidaat-paren waarvan de relatieve juistheid het meest onzeker is; en V_1-PairRL, een RL-raamwerk dat een enkel model gezamenlijk traint als zowel generator als paarsgewijze zelfverificateur, zodat de verificateur zich aanpast aan de evoluerende distributie van de generator. Op benchmarks voor codegeneratie (LiveCodeBench, CodeContests, SWE-Bench) en wiskundig redeneren (AIME, HMMT) verbetert V_1-Infer Pass@1 met tot 10% ten opzichte van puntsgewijze verificatie en presteert het beter dan recente test-time scaling-methoden, terwijl het aanzienlijk efficiënter is. Bovendien behaalt V_1-PairRL 7–9% test-time scaling-winst ten opzichte van standaard RL en puntsgewijze gezamenlijke training, en verbetert het de basis-Pass@1 met tot 8,7% ten opzichte van standaard RL in een codegeneratie-omgeving.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1: Unificatie van Generatie en Zelfverificatie voor Parallelle Redeneerders

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Samenvatting

Support