Escalado en el momento de prueba con conciencia del presupuesto mediante verificación discriminativa
Budget-aware Test-time Scaling via Discriminative Verification
October 16, 2025
Autores: Kyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang
cs.AI
Resumen
El escalado en tiempo de prueba es una estrategia potente para mejorar el rendimiento de los modelos de lenguaje de gran escala en tareas de razonamiento complejo. Si bien los enfoques de vanguardia suelen emplear verificadores generativos para seleccionar la mejor solución de un conjunto de candidatos, este método incurre en costos computacionales prohibitivos, limitando su practicidad. En este trabajo, centramos nuestra atención en un paradigma más consciente del presupuesto: la verificación discriminativa. Realizamos un análisis empírico exhaustivo y demostramos que, aunque los verificadores discriminativos pueden tener un rendimiento inferior de manera aislada, combinarlos con la autoconsistencia en un enfoque híbrido crea un mecanismo de escalado en tiempo de prueba potente y eficiente. Notablemente, bajo un presupuesto de cómputo fijo, este enfoque híbrido supera a la verificación generativa de vanguardia por un margen significativo: logrando hasta un 15.3\% más de precisión en AIME2025. Nuestros hallazgos establecen que, para aplicaciones prácticas del mundo real, el escalado consciente del presupuesto con verificadores discriminativos no solo es una mejora "gratuita" sobre la autoconsistencia, sino también una alternativa más efectiva y eficiente que las costosas técnicas generativas. El código está disponible en https://github.com/wang-research-lab/verification.
English
Test-time scaling is a powerful strategy for boosting the performance of
large language models on complex reasoning tasks. While state-of-the-art
approaches often employ generative verifiers to select the best solution from a
pool of candidates, this method incurs prohibitive computational costs,
limiting its practicality. In this work, we shift the focus to a more
budget-aware paradigm: discriminative verification. We conduct a thorough
empirical analysis and demonstrate that while discriminative verifiers may
underperform in isolation, combining them with self-consistency in a hybrid
approach creates a powerful and efficient test-time scaling mechanism. Notably,
under a fixed compute budget, this hybrid approach surpasses state-of-the-art
generative verification by a significant margin: achieving up to 15.3\% higher
accuracy on AIME2025. Our findings establish that for practical, real-world
applications, budget-aware scaling with discriminative verifiers is not only a
"free" upgrade over self-consistency, but also a more effective and efficient
alternative to costly generative techniques. Code is available at
https://github.com/wang-research-lab/verification.