V_1: Vereinheitlichung von Generierung und Selbstverifikation für parallele Reasoner

Zusammenfassung

Test-Time-Scaling für komplexe Denkaufgaben zeigt, dass die Nutzung von Rechenleistung zur Inferenzzeit – beispielsweise durch unabhängiges Sammeln und Aggregieren mehrerer Lösungen – zu deutlich besseren Aufgabenresultaten führt. Ein kritischer Engpass ist jedoch die Verifikation: Das Sammeln von Lösungen ist nur dann effektiv, wenn korrekte Lösungen zuverlässig unter den Kandidaten identifiziert werden können. Während bestehende Ansätze Kandidaten typischerweise unabhängig mittels skalarem Scoring bewerten, zeigen wir, dass Modelle bei der paarweisen Selbstverifikation wesentlich leistungsfähiger sind. Gestützt auf diese Erkenntnis führen wir V_1 ein, ein Framework, das Generierung und Verifikation durch effizientes paarweises Ranking vereint. V_1 besteht aus zwei Komponenten: V_1-Infer, einem ungefährungsgesteuerten Algorithmus, der ein turnierbasiertes Ranking nutzt und Rechenressourcen für die Selbstverifikation dynamisch denjenigen Kandidatenpaaren zuweist, deren relative Korrektheit am unsichersten ist; und V_1-PairRL, einem RL-Framework, das ein einzelnes Modell gemeinsam als Generator und paarweisen Selbstverifizierer trainiert und so sicherstellt, dass sich der Verifizierer an die sich entwickelnde Verteilung des Generators anpasst. Bei Code-Generierung (LiveCodeBench, CodeContests, SWE-Bench) und mathematischen Denkaufgaben (AIME, HMMT) verbessert V_1-Infer Pass@1 um bis zu 10 % gegenüber punktweiser Verifikation und übertrifft aktuelle Test-Time-Scaling-Methoden bei deutlich höherer Effizienz. Darüber hinaus erzielt V_1-PairRL Test-Time-Scaling-Gewinne von 7–9 % gegenüber Standard-RL und gemeinsamem punktweisem Training und verbessert das Basis-Pass@1 in einer Code-Generierungsumgebung um bis zu 8,7 % gegenüber Standard-RL.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1: Vereinheitlichung von Generierung und Selbstverifikation für parallele Reasoner

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Zusammenfassung

Support