V_1: Unificação de Geração e Autoverificação para Raciocinadores Paralelos

Resumo

A escala em tempo de teste para tarefas de raciocínio complexo demonstra que a utilização de recursos computacionais durante a inferência, através de métodos como a amostragem independente e agregação de múltiplas soluções, resulta em resultados de tarefas significativamente melhores. No entanto, um gargalo crítico é a verificação: a amostragem só é eficaz se as soluções corretas puderem ser identificadas de forma confiável entre os candidatos. Embora as abordagens existentes normalmente avaliem os candidatos de forma independente através de pontuação escalar, demonstramos que os modelos são substancialmente mais fortes na autoverificação por pares. Aproveitando esta perceção, introduzimos V_1, uma estrutura que unifica a geração e a verificação através de uma classificação eficiente por pares. V_1 compreende dois componentes: V_1-Infer, um algoritmo guiado por incerteza que utiliza uma classificação baseada em torneio que aloca dinamicamente recursos computacionais de autoverificação para pares de candidatos cuja correção relativa é mais incerta; e V_1-PairRL, uma estrutura de RL (Aprendizagem por Reforço) que treina conjuntamente um único modelo como gerador e autoverificador por pares, garantindo que o verificador se adapta à distribuição em evolução do gerador. Em benchmarks de geração de código (LiveCodeBench, CodeContests, SWE-Bench) e raciocínio matemático (AIME, HMMT), o V_1-Infer melhora o Pass@1 em até 10% em relação à verificação pontual e supera os métodos recentes de escala em tempo de teste, sendo simultaneamente significativamente mais eficiente. Além disso, o V_1-PairRL alcança ganhos de escala em tempo de teste de 7–9% em relação ao RL padrão e ao treino conjunto pontual, e melhora o Pass@1 base em até 8,7% em relação ao RL padrão num ambiente de geração de código.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1: Unificação de Geração e Autoverificação para Raciocinadores Paralelos

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Resumo

Support