Heroverweging van de optimale verificatiegranulariteit voor reken-efficiënte schaling tijdens testtijd
Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling
May 16, 2025
Auteurs: Hao Mark Chen, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, Hongxiang Fan
cs.AI
Samenvatting
Test-time scaling (TTS) heeft zich bewezen als effectief in het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Verificatie speelt een cruciale rol in TTS, waarbij het zowel (1) de redeneerprestaties als (2) de rekenefficiëntie beïnvloedt, vanwege de kwaliteit en de rekenkosten van verificatie. In dit werk dagen we de conventionele paradigma's van verificatie uit en doen we een eerste poging om systematisch de impact van verificatiegranulariteit te onderzoeken – dat wil zeggen, hoe vaak de verifier wordt ingeschakeld tijdens het genereren, verder dan alleen het verifiëren van de uiteindelijke uitvoer of individuele generatiestappen. Hiertoe introduceren we Variable Granularity Search (VG-Search), een geünificeerd algoritme dat beam search en Best-of-N sampling generaliseert via een instelbare granulariteitsparameter g. Uitgebreide experimenten met VG-Search onder verschillende rekenbudgetten, generator-verifier configuraties en taakkenmerken laten zien dat het dynamisch selecteren van g de rekenefficiëntie en schaalbaarheid kan verbeteren. Op basis van deze bevindingen stellen we adaptieve VG-Search strategieën voor die nauwkeurigheidsverbeteringen van tot 3,1\% ten opzichte van Beam Search en 3,6\% ten opzichte van Best-of-N bereiken, terwijl het aantal FLOPs met meer dan 52\% wordt verminderd. We zullen de code openbaren om toekomstig onderzoek te ondersteunen.
English
Test-time scaling (TTS) has proven effective in enhancing the reasoning
capabilities of large language models (LLMs). Verification plays a key role in
TTS, simultaneously influencing (1) reasoning performance and (2) compute
efficiency, due to the quality and computational cost of verification. In this
work, we challenge the conventional paradigms of verification, and make the
first attempt toward systematically investigating the impact of verification
granularity-that is, how frequently the verifier is invoked during generation,
beyond verifying only the final output or individual generation steps. To this
end, we introduce Variable Granularity Search (VG-Search), a unified algorithm
that generalizes beam search and Best-of-N sampling via a tunable granularity
parameter g. Extensive experiments with VG-Search under varying compute
budgets, generator-verifier configurations, and task attributes reveal that
dynamically selecting g can improve the compute efficiency and scaling
behavior. Building on these findings, we propose adaptive VG-Search strategies
that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over
Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to
support future research.Summary
AI-Generated Summary