Escalonamento Consciente do Orçamento no Momento do Teste via Verificação Discriminativa
Budget-aware Test-time Scaling via Discriminative Verification
October 16, 2025
Autores: Kyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang
cs.AI
Resumo
O escalonamento em tempo de teste é uma estratégia poderosa para melhorar o desempenho de modelos de linguagem grandes em tarefas de raciocínio complexo. Embora as abordagens de ponta frequentemente empreguem verificadores generativos para selecionar a melhor solução de um conjunto de candidatos, esse método incorre em custos computacionais proibitivos, limitando sua praticidade. Neste trabalho, deslocamos o foco para um paradigma mais consciente do orçamento: a verificação discriminativa. Realizamos uma análise empírica detalhada e demonstramos que, embora os verificadores discriminativos possam ter desempenho inferior isoladamente, combiná-los com a autoconsistência em uma abordagem híbrida cria um mecanismo de escalonamento em tempo de teste poderoso e eficiente. Notavelmente, sob um orçamento computacional fixo, essa abordagem híbrida supera a verificação generativa de ponta por uma margem significativa: alcançando até 15,3% de precisão maior no AIME2025. Nossas descobertas estabelecem que, para aplicações práticas do mundo real, o escalonamento consciente do orçamento com verificadores discriminativos não é apenas uma atualização "gratuita" em relação à autoconsistência, mas também uma alternativa mais eficaz e eficiente às técnicas generativas custosas. O código está disponível em https://github.com/wang-research-lab/verification.
English
Test-time scaling is a powerful strategy for boosting the performance of
large language models on complex reasoning tasks. While state-of-the-art
approaches often employ generative verifiers to select the best solution from a
pool of candidates, this method incurs prohibitive computational costs,
limiting its practicality. In this work, we shift the focus to a more
budget-aware paradigm: discriminative verification. We conduct a thorough
empirical analysis and demonstrate that while discriminative verifiers may
underperform in isolation, combining them with self-consistency in a hybrid
approach creates a powerful and efficient test-time scaling mechanism. Notably,
under a fixed compute budget, this hybrid approach surpasses state-of-the-art
generative verification by a significant margin: achieving up to 15.3\% higher
accuracy on AIME2025. Our findings establish that for practical, real-world
applications, budget-aware scaling with discriminative verifiers is not only a
"free" upgrade over self-consistency, but also a more effective and efficient
alternative to costly generative techniques. Code is available at
https://github.com/wang-research-lab/verification.