Heroverweging van de optimale verificatiegranulariteit voor reken-efficiënte schaling tijdens testtijd

Samenvatting

Test-time scaling (TTS) heeft zich bewezen als effectief in het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Verificatie speelt een cruciale rol in TTS, waarbij het zowel (1) de redeneerprestaties als (2) de rekenefficiëntie beïnvloedt, vanwege de kwaliteit en de rekenkosten van verificatie. In dit werk dagen we de conventionele paradigma's van verificatie uit en doen we een eerste poging om systematisch de impact van verificatiegranulariteit te onderzoeken – dat wil zeggen, hoe vaak de verifier wordt ingeschakeld tijdens het genereren, verder dan alleen het verifiëren van de uiteindelijke uitvoer of individuele generatiestappen. Hiertoe introduceren we Variable Granularity Search (VG-Search), een geünificeerd algoritme dat beam search en Best-of-N sampling generaliseert via een instelbare granulariteitsparameter g. Uitgebreide experimenten met VG-Search onder verschillende rekenbudgetten, generator-verifier configuraties en taakkenmerken laten zien dat het dynamisch selecteren van g de rekenefficiëntie en schaalbaarheid kan verbeteren. Op basis van deze bevindingen stellen we adaptieve VG-Search strategieën voor die nauwkeurigheidsverbeteringen van tot 3,1\% ten opzichte van Beam Search en 3,6\% ten opzichte van Best-of-N bereiken, terwijl het aantal FLOPs met meer dan 52\% wordt verminderd. We zullen de code openbaren om toekomstig onderzoek te ondersteunen.

English

Test-time scaling (TTS) has proven effective in enhancing the reasoning capabilities of large language models (LLMs). Verification plays a key role in TTS, simultaneously influencing (1) reasoning performance and (2) compute efficiency, due to the quality and computational cost of verification. In this work, we challenge the conventional paradigms of verification, and make the first attempt toward systematically investigating the impact of verification granularity-that is, how frequently the verifier is invoked during generation, beyond verifying only the final output or individual generation steps. To this end, we introduce Variable Granularity Search (VG-Search), a unified algorithm that generalizes beam search and Best-of-N sampling via a tunable granularity parameter g. Extensive experiments with VG-Search under varying compute budgets, generator-verifier configurations, and task attributes reveal that dynamically selecting g can improve the compute efficiency and scaling behavior. Building on these findings, we propose adaptive VG-Search strategies that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to support future research.

Heroverweging van de optimale verificatiegranulariteit voor reken-efficiënte schaling tijdens testtijd

Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling

Samenvatting

Summary

Support

Support