SCHALING: Selectieve Toewijzing van Middelen voor het Overkomen van Prestatieknelpunten bij Wiskundige Testtijd-schaling
SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
November 29, 2025
Auteurs: Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu
cs.AI
Samenvatting
Schaalbaarheid van rekentijd tijdens testen is naar voren gekomen als een krachtig paradigma om wiskundig redeneren in grote taalmodellen (LLM's) te verbeteren door extra rekenresources toe te wijzen tijdens de inferentiefase. Huidige methodes hanteren echter een uniforme resourceverdeling over alle redeneersubproblemen, wat fundamentele knelpunten creëert: uitdagende subproblemen krijgen onvoldoende aandacht, terwijl routinematige bewerkingen onevenredig veel resources verbruiken. Deze uniforme toewijzing leidt tot prestatieknelpunten waarbij extra rekenresources afnemende meeropbrengsten opleveren.
Geïnspireerd door de dual-process theorie stellen we SCALE voor (Selectieve Resource Toewijzing), een raamwerk dat rekenresources selectief toewijst op basis van de moeilijkheidsgraad van subproblemen. SCALE werkt via vier fasen: (1) probleemdecompositie in opeenvolgende redeneersubproblemen, (2) moeilijkheidsinschatting van elk subprobleem om routinebewerkingen te onderscheiden van rekenkundig uitdagende subproblemen, (3) selectieve toewijzing van verwerkingsmodi tussen Systeem 1 voor eenvoudige subproblemen en Systeem 2 voor complexe, en (4) sequentiële uitvoering met contextpropagatie.
Door resources te concentreren op uitdagende subproblemen terwijl routinebewerkingen efficiënt worden verwerkt, bereikt SCALE aanzienlijke prestatieverbeteringen met superieur resourcegebruik. Uitgebreide experimenten tonen aan dat SCALE uniforme schaalbaarheids-baselines significant overtreft, met nauwkeurigheidsverbeteringen tot 13,75 procentpunten (van 57,50% naar 71,25% op AIME25) terwijl de rekenkosten met 33%-53% worden verlaagd. Dit vertegenwoordigt een belangrijke vooruitgang in test-time schaalbaarheid die de fundamentele beperkingen van huidige benaderingen aanpakt.
English
Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.