Repenser la granularité optimale de vérification pour une mise à l'échelle efficace en termes de calcul lors des tests

papers.abstract

Le redimensionnement au moment du test (Test-time scaling, TTS) s'est avéré efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). La vérification joue un rôle clé dans le TTS, influençant simultanément (1) les performances de raisonnement et (2) l'efficacité computationnelle, en raison de la qualité et du coût computationnel de la vérification. Dans ce travail, nous remettons en question les paradigmes conventionnels de vérification et faisons une première tentative pour étudier systématiquement l'impact de la granularité de la vérification, c'est-à-dire la fréquence à laquelle le vérificateur est invoqué pendant la génération, au-delà de la vérification uniquement de la sortie finale ou des étapes individuelles de génération. À cette fin, nous introduisons la recherche à granularité variable (Variable Granularity Search, VG-Search), un algorithme unifié qui généralise la recherche en faisceau (beam search) et l'échantillonnage Best-of-N via un paramètre de granularité réglable g. Des expériences approfondies avec VG-Search sous différents budgets de calcul, configurations générateur-vérificateur et attributs de tâche révèlent que la sélection dynamique de g peut améliorer l'efficacité computationnelle et le comportement de redimensionnement. Sur la base de ces résultats, nous proposons des stratégies adaptatives de VG-Search qui permettent des gains de précision allant jusqu'à 3,1 % par rapport à la recherche en faisceau et 3,6 % par rapport à Best-of-N, tout en réduisant les FLOPs de plus de 52 %. Nous mettrons le code en open source pour soutenir les recherches futures.

English

Test-time scaling (TTS) has proven effective in enhancing the reasoning capabilities of large language models (LLMs). Verification plays a key role in TTS, simultaneously influencing (1) reasoning performance and (2) compute efficiency, due to the quality and computational cost of verification. In this work, we challenge the conventional paradigms of verification, and make the first attempt toward systematically investigating the impact of verification granularity-that is, how frequently the verifier is invoked during generation, beyond verifying only the final output or individual generation steps. To this end, we introduce Variable Granularity Search (VG-Search), a unified algorithm that generalizes beam search and Best-of-N sampling via a tunable granularity parameter g. Extensive experiments with VG-Search under varying compute budgets, generator-verifier configurations, and task attributes reveal that dynamically selecting g can improve the compute efficiency and scaling behavior. Building on these findings, we propose adaptive VG-Search strategies that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to support future research.

Repenser la granularité optimale de vérification pour une mise à l'échelle efficace en termes de calcul lors des tests

Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling

papers.abstract

Support