ESCALA: Alocação Seletiva de Recursos para Superar Gargalos de Desempenho em Escalonamento Matemático em Tempo de Teste

Resumo

A escala de computação no tempo de teste emergiu como um paradigma poderoso para aprimorar o raciocínio matemático em grandes modelos de linguagem (LLMs) através da alocação de recursos computacionais adicionais durante a inferência. No entanto, os métodos atuais empregam uma distribuição uniforme de recursos em todos os subproblemas de raciocínio, criando gargalos fundamentais onde subproblemas desafiadores recebem atenção insuficiente enquanto operações rotineiras consomem recursos desproporcionais. Esta alocação uniforme cria gargalos de desempenho onde recursos computacionais adicionais produzem retornos decrescentes. Inspirados pela teoria do processo duplo, propomos o SCALE (Alocação Seletiva de Recursos), uma estrutura que aloca seletivamente recursos computacionais com base na dificuldade do subproblema. O SCALE opera através de quatro estágios: (1) decomposição do problema em subproblemas de raciocínio sequenciais, (2) avaliação da dificuldade de cada subproblema para distinguir entre operações rotineiras e subproblemas computacionalmente desafiadores, (3) atribuição seletiva do modo de processamento entre o Sistema 1 para subproblemas simples e o Sistema 2 para os complexos, e (4) execução sequencial com propagação de contexto. Ao concentrar recursos em subproblemas desafiadores enquanto processa operações rotineiras de forma eficiente, o SCALE alcança melhorias substanciais de desempenho com utilização superior de recursos. Experimentos extensivos demonstram que o SCALE supera significativamente as linhas de base de escala uniforme, alcançando melhorias de precisão de até 13,75 pontos percentuais (de 57,50% para 71,25% no AIME25) enquanto reduz os custos computacionais em 33%-53%, representando um grande avanço na escala no tempo de teste que aborda limitações fundamentais das abordagens atuais.

English

Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.

ESCALA: Alocação Seletiva de Recursos para Superar Gargalos de Desempenho em Escalonamento Matemático em Tempo de Teste

SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

Resumo

Support