V_1: Unificación de la Generación y la Autoverificación para Razonadores Paralelos

Resumen

El escalado en tiempo de prueba para tareas de razonamiento complejo demuestra que aprovechar la capacidad computacional durante la inferencia, mediante métodos como el muestreo independiente y la agregación de múltiples soluciones, produce resultados significativamente mejores en las tareas. Sin embargo, un cuello de botella crítico es la verificación: el muestreo solo es efectivo si las soluciones correctas pueden identificarse de manera confiable entre los candidatos. Mientras que los enfoques existentes suelen evaluar los candidatos de forma independiente mediante puntuaciones escalares, demostramos que los modelos son sustancialmente más fuertes en la autoverificación por pares. Aprovechando esta idea, presentamos V_1, un marco que unifica la generación y la verificación mediante una clasificación por pares eficiente. V_1 consta de dos componentes: V_1-Infer, un algoritmo guiado por incertidumbre que utiliza una clasificación basada en torneos y asigna dinámicamente capacidad computacional de autoverificación a pares de candidatos cuya corrección relativa es más incierta; y V_1-PairRL, un marco de aprendizaje por refuerzo que entrena conjuntamente un único modelo como generador y autoverificador por pares, garantizando que el verificador se adapte a la distribución en evolución del generador. En benchmarks de generación de código (LiveCodeBench, CodeContests, SWE-Bench) y razonamiento matemático (AIME, HMMT), V_1-Infer mejora Pass@1 hasta en un 10% respecto a la verificación puntual y supera a los métodos recientes de escalado en tiempo de prueba, siendo además significativamente más eficiente. Además, V_1-PairRL logra ganancias de escalado en tiempo de prueba del 7-9% sobre el aprendizaje por refuerzo estándar y el entrenamiento conjunto puntual, y mejora el Pass@1 base hasta en un 8.7% sobre el aprendizaje por refuerzo estándar en un entorno de generación de código.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1: Unificación de la Generación y la Autoverificación para Razonadores Paralelos

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Resumen

Support