ESCALA: Asignación Selectiva de Recursos para Superar Cuellos de Botella de Rendimiento en el Escalado en Tiempo de Prueba Matemático

Resumen

La escalado de cómputo en tiempo de prueba ha surgido como un paradigma poderoso para mejorar el razonamiento matemático en modelos de lenguaje grandes (LLM) mediante la asignación de recursos computacionales adicionales durante la inferencia. Sin embargo, los métodos actuales emplean una distribución uniforme de recursos en todos los subproblemas de razonamiento, creando cuellos de botella fundamentales donde los subproblemas desafiantes reciben atención insuficiente mientras que las operaciones rutinarias consumen recursos desproporcionados. Esta asignación uniforme crea cuellos de botella de rendimiento donde los recursos computacionales adicionales producen rendimientos decrecientes. Inspirados por la teoría del proceso dual, proponemos SCALE (Asignación Selectiva de Recursos), un marco que asigna recursos computacionales de manera selectiva según la dificultad del subproblema. SCALE opera a través de cuatro etapas: (1) descomposición del problema en subproblemas de razonamiento secuenciales, (2) evaluación de la dificultad de cada subproblema para distinguir entre operaciones rutinarias y subproblemas computacionalmente desafiantes, (3) asignación selectiva del modo de procesamiento entre Sistema 1 para subproblemas simples y Sistema 2 para los complejos, y (4) ejecución secuencial con propagación de contexto. Al concentrar recursos en subproblemas desafiantes mientras se procesan las operaciones rutinarias de manera eficiente, SCALE logra mejoras sustanciales de rendimiento con una utilización superior de recursos. Experimentos exhaustivos demuestran que SCALE supera significativamente a los baselines de escalado uniforme, logrando mejoras en precisión de hasta 13.75 puntos porcentuales (del 57.50% al 71.25% en AIME25) mientras reduce los costos computacionales en un 33%-53%, representando un avance importante en el escalado en tiempo de prueba que aborda las limitaciones fundamentales de los enfoques actuales.

English

Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.