De Kunst van het Schalen van Rekenkracht tijdens Testen voor Grote Taalmodellen

Samenvatting

Test-time scaling (TTS) – de dynamische toewijzing van rekenkracht tijdens inferentie – is een veelbelovende richting voor het verbeteren van het redeneervermogen van grote taalmmodellen (LLM's). Er ontbreekt echter een systematische vergelijking van bekende TTS-strategieën onder identieke omstandigheden, en de invloed van modeltype en probleemmoeilijkheid op de prestaties blijft onduidelijk. Om deze lacunes aan te pakken, voeren we de eerste grootschalige studie naar TTS uit, waarbij meer dan dertig miljard tokens worden gegenereerd met acht open-source LLM's (7B tot 235B parameters), verspreid over vier redeneerdatasets. We observeren drie consistente trends: (1) geen enkele TTS-strategie is universeel superieur; (2) redeneermodellen vertonen duidelijke spoor-kwaliteitspatronen over probleemmoeilijkheid en spoorelengte, die zich verdelen in kort-horizon- en lang-horizoncategorieën; en (3) voor een bepaald modeltype schaalt de optimale TTS-prestatie monotoon met het rekenbudget. Op basis van deze inzichten bieden we een praktisch recept voor het selecteren van de beste TTS-strategie, waarbij rekening wordt gehouden met probleemmoeilijkheid, modeltype en rekenbudget, wat een praktische gids vormt voor effectieve schaling tijdens de inferentie.

English

Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.

De Kunst van het Schalen van Rekenkracht tijdens Testen voor Grote Taalmodellen

The Art of Scaling Test-Time Compute for Large Language Models

Samenvatting

Support