Repenser la granularité optimale de vérification pour une mise à l'échelle efficace en termes de calcul lors des tests
Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling
May 16, 2025
Auteurs: Hao Mark Chen, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, Hongxiang Fan
cs.AI
Résumé
Le redimensionnement au moment du test (Test-time scaling, TTS) s'est avéré efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). La vérification joue un rôle clé dans le TTS, influençant simultanément (1) les performances de raisonnement et (2) l'efficacité computationnelle, en raison de la qualité et du coût computationnel de la vérification. Dans ce travail, nous remettons en question les paradigmes conventionnels de vérification et faisons une première tentative pour étudier systématiquement l'impact de la granularité de la vérification, c'est-à-dire la fréquence à laquelle le vérificateur est invoqué pendant la génération, au-delà de la vérification uniquement de la sortie finale ou des étapes individuelles de génération. À cette fin, nous introduisons la recherche à granularité variable (Variable Granularity Search, VG-Search), un algorithme unifié qui généralise la recherche en faisceau (beam search) et l'échantillonnage Best-of-N via un paramètre de granularité réglable g. Des expériences approfondies avec VG-Search sous différents budgets de calcul, configurations générateur-vérificateur et attributs de tâche révèlent que la sélection dynamique de g peut améliorer l'efficacité computationnelle et le comportement de redimensionnement. Sur la base de ces résultats, nous proposons des stratégies adaptatives de VG-Search qui permettent des gains de précision allant jusqu'à 3,1 % par rapport à la recherche en faisceau et 3,6 % par rapport à Best-of-N, tout en réduisant les FLOPs de plus de 52 %. Nous mettrons le code en open source pour soutenir les recherches futures.
English
Test-time scaling (TTS) has proven effective in enhancing the reasoning
capabilities of large language models (LLMs). Verification plays a key role in
TTS, simultaneously influencing (1) reasoning performance and (2) compute
efficiency, due to the quality and computational cost of verification. In this
work, we challenge the conventional paradigms of verification, and make the
first attempt toward systematically investigating the impact of verification
granularity-that is, how frequently the verifier is invoked during generation,
beyond verifying only the final output or individual generation steps. To this
end, we introduce Variable Granularity Search (VG-Search), a unified algorithm
that generalizes beam search and Best-of-N sampling via a tunable granularity
parameter g. Extensive experiments with VG-Search under varying compute
budgets, generator-verifier configurations, and task attributes reveal that
dynamically selecting g can improve the compute efficiency and scaling
behavior. Building on these findings, we propose adaptive VG-Search strategies
that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over
Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to
support future research.