V_1 : Unification de la génération et de l'auto-vérification pour des raisonneurs parallèles

Résumé

La mise à l'échelle au moment du test pour les tâches de raisonnement complexe montre que l'exploitation de la puissance de calcul lors de l'inférence, par des méthodes telles que l'échantillonnage et l'agrégation indépendants de multiples solutions, améliore considérablement les résultats des tâches. Cependant, un goulot d'étranglement critique est la vérification : l'échantillonnage n'est efficace que si les solutions correctes peuvent être identifiées de manière fiable parmi les candidats. Alors que les approches existantes évaluent généralement les candidats indépendamment via un score scalaire, nous démontrons que les modèles sont nettement plus performants pour l'auto-vérification par paires. En tirant parti de cette idée, nous introduisons V_1, un cadre qui unifie la génération et la vérification grâce à un classement par paires efficace. V_1 comprend deux composants : V_1-Infer, un algorithme guidé par l'incertitude utilisant un classement de type tournoi qui alloue dynamiquement les ressources de calcul d'auto-vérification aux paires de candidats dont la justesse relative est la plus incertaine ; et V_1-PairRL, un cadre d'apprentissage par renforcement qui entraîne conjointement un modèle unique à la fois comme générateur et auto-vérificateur par paires, garantissant que le vérificateur s'adapte à la distribution évolutive du générateur. Sur des benchmarks de génération de code (LiveCodeBench, CodeContests, SWE-Bench) et de raisonnement mathématique (AIME, HMMT), V_1-Infer améliore le Pass@1 jusqu'à 10 % par rapport à la vérification ponctuelle et surpasse les méthodes récentes de mise à l'échelle au moment du test tout en étant nettement plus efficace. De plus, V_1-PairRL obtient des gains de mise à l'échelle au moment du test de 7 à 9 % par rapport à l'apprentissage par renforcement standard et à l'entraînement conjoint ponctuel, et améliore le Pass@1 de base jusqu'à 8,7 % par rapport à l'apprentissage par renforcement standard dans un contexte de génération de code.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1 : Unification de la génération et de l'auto-vérification pour des raisonneurs parallèles

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Résumé

Support