ChatPaper.aiChatPaper

Mise à l'échelle en phase de test basée sur le budget via la vérification discriminative

Budget-aware Test-time Scaling via Discriminative Verification

October 16, 2025
papers.authors: Kyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang
cs.AI

papers.abstract

La mise à l'échelle au moment du test est une stratégie puissante pour améliorer les performances des grands modèles de langage sur des tâches de raisonnement complexes. Bien que les approches de pointe utilisent souvent des vérificateurs génératifs pour sélectionner la meilleure solution parmi un ensemble de candidats, cette méthode entraîne des coûts de calcul prohibitifs, limitant ainsi sa praticabilité. Dans ce travail, nous recentrons notre attention sur un paradigme plus respectueux du budget : la vérification discriminative. Nous menons une analyse empirique approfondie et démontrons que, bien que les vérificateurs discriminatifs puissent sous-performer isolément, leur combinaison avec l'auto-cohérence dans une approche hybride crée un mécanisme de mise à l'échelle au moment du test à la fois puissant et efficace. De manière notable, avec un budget de calcul fixe, cette approche hybride surpasse les vérifications génératives de pointe par une marge significative : atteignant jusqu'à 15,3 % de précision supplémentaire sur AIME2025. Nos résultats établissent que, pour des applications pratiques et réelles, la mise à l'échelle respectueuse du budget avec des vérificateurs discriminatifs constitue non seulement une amélioration "gratuite" par rapport à l'auto-cohérence, mais aussi une alternative plus efficace et efficiente aux techniques génératives coûteuses. Le code est disponible à l'adresse suivante : https://github.com/wang-research-lab/verification.
English
Test-time scaling is a powerful strategy for boosting the performance of large language models on complex reasoning tasks. While state-of-the-art approaches often employ generative verifiers to select the best solution from a pool of candidates, this method incurs prohibitive computational costs, limiting its practicality. In this work, we shift the focus to a more budget-aware paradigm: discriminative verification. We conduct a thorough empirical analysis and demonstrate that while discriminative verifiers may underperform in isolation, combining them with self-consistency in a hybrid approach creates a powerful and efficient test-time scaling mechanism. Notably, under a fixed compute budget, this hybrid approach surpasses state-of-the-art generative verification by a significant margin: achieving up to 15.3\% higher accuracy on AIME2025. Our findings establish that for practical, real-world applications, budget-aware scaling with discriminative verifiers is not only a "free" upgrade over self-consistency, but also a more effective and efficient alternative to costly generative techniques. Code is available at https://github.com/wang-research-lab/verification.
PDF42October 17, 2025