SCALA: Allocazione Selettiva delle Risorse per Superare i Colli di Bottiglia delle Prestazioni nello Scaling a Tempo di Test Matematico

Abstract

Lo scaling del calcolo al momento del test è emerso come un paradigma potente per potenziare il ragionamento matematico nei grandi modelli linguistici (LLM) allocando risorse computazionali aggiuntive durante l'inferenza. Tuttavia, i metodi attuali impiegano una distribuzione uniforme delle risorse su tutti i sotto-problemi di ragionamento, creando colli di bottiglia fondamentali in cui i sotto-problemi complessi ricevono attenzione insufficiente mentre le operazioni di routine consumano risorse sproporzionate. Questa allocazione uniforme crea colli di bottiglia prestazionali in cui risorse computazionali aggiuntive producono rendimenti decrescenti. Ispirati dalla teoria del doppio processo, proponiamo SCALE (Selective Resource Allocation), un framework che alloca selettivamente le risorse computazionali in base alla difficoltà del sotto-problema. SCALE opera attraverso quattro fasi: (1) scomposizione del problema in sotto-problemi di ragionamento sequenziali, (2) valutazione della difficoltà di ciascun sotto-problema per distinguere tra operazioni di routine e sotto-problemi computazionalmente impegnativi, (3) assegnazione selettiva della modalità di elaborazione tra Sistema 1 per i sotto-problemi semplici e Sistema 2 per quelli complessi, e (4) esecuzione sequenziale con propagazione del contesto. Concentrando le risorse sui sotto-problemi complessi mentre si elaborano efficientemente le operazioni di routine, SCALE raggiunge miglioramenti prestazionali sostanziali con un utilizzo superiore delle risorse. Esperimenti estensivi dimostrano che SCALE supera significativamente i baseline di scaling uniforme, raggiungendo miglioramenti di accuratezza fino a 13,75 punti percentuali (dal 57,50% al 71,25% su AIME25) riducendo simultaneamente i costi computazionali del 33%-53%, rappresentando un avanzamento significativo nello scaling al momento del test che affronta le limitazioni fondamentali degli approcci attuali.

English

Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.

SCALA: Allocazione Selettiva delle Risorse per Superare i Colli di Bottiglia delle Prestazioni nello Scaling a Tempo di Test Matematico

SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

Abstract

Support