Mise à l'échelle en phase de test basée sur le budget via la vérification discriminative
Budget-aware Test-time Scaling via Discriminative Verification
October 16, 2025
papers.authors: Kyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang
cs.AI
papers.abstract
La mise à l'échelle au moment du test est une stratégie puissante pour améliorer les performances des grands modèles de langage sur des tâches de raisonnement complexes. Bien que les approches de pointe utilisent souvent des vérificateurs génératifs pour sélectionner la meilleure solution parmi un ensemble de candidats, cette méthode entraîne des coûts de calcul prohibitifs, limitant ainsi sa praticabilité. Dans ce travail, nous recentrons notre attention sur un paradigme plus respectueux du budget : la vérification discriminative. Nous menons une analyse empirique approfondie et démontrons que, bien que les vérificateurs discriminatifs puissent sous-performer isolément, leur combinaison avec l'auto-cohérence dans une approche hybride crée un mécanisme de mise à l'échelle au moment du test à la fois puissant et efficace. De manière notable, avec un budget de calcul fixe, cette approche hybride surpasse les vérifications génératives de pointe par une marge significative : atteignant jusqu'à 15,3 % de précision supplémentaire sur AIME2025. Nos résultats établissent que, pour des applications pratiques et réelles, la mise à l'échelle respectueuse du budget avec des vérificateurs discriminatifs constitue non seulement une amélioration "gratuite" par rapport à l'auto-cohérence, mais aussi une alternative plus efficace et efficiente aux techniques génératives coûteuses. Le code est disponible à l'adresse suivante : https://github.com/wang-research-lab/verification.
English
Test-time scaling is a powerful strategy for boosting the performance of
large language models on complex reasoning tasks. While state-of-the-art
approaches often employ generative verifiers to select the best solution from a
pool of candidates, this method incurs prohibitive computational costs,
limiting its practicality. In this work, we shift the focus to a more
budget-aware paradigm: discriminative verification. We conduct a thorough
empirical analysis and demonstrate that while discriminative verifiers may
underperform in isolation, combining them with self-consistency in a hybrid
approach creates a powerful and efficient test-time scaling mechanism. Notably,
under a fixed compute budget, this hybrid approach surpasses state-of-the-art
generative verification by a significant margin: achieving up to 15.3\% higher
accuracy on AIME2025. Our findings establish that for practical, real-world
applications, budget-aware scaling with discriminative verifiers is not only a
"free" upgrade over self-consistency, but also a more effective and efficient
alternative to costly generative techniques. Code is available at
https://github.com/wang-research-lab/verification.