ÉCHELLE : Allocation Sélective de Ressources pour Surmonter les Goulots d'Étranglement de Performance dans la Mise à l'Échelle au Moment des Tests Mathématiques
SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
November 29, 2025
papers.authors: Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu
cs.AI
papers.abstract
L'ajustement du calcul au moment du test est apparu comme un paradigme puissant pour améliorer le raisonnement mathématique des grands modèles de langage (LLM) en allouant des ressources computationnelles supplémentaires lors de l'inférence. Cependant, les méthodes actuelles emploient une distribution uniforme des ressources sur tous les sous-problèmes de raisonnement, créant des goulots d'étranglement fondamentaux où les sous-problèmes difficiles reçoivent une attention insuffisante tandis que les opérations routinières consomment des ressources disproportionnées. Cette allocation uniforme crée des limites de performance où les ressources computationnelles supplémentaires produisent des rendements décroissants. Inspiré par la théorie du double processus, nous proposons SCALE (Allocation SÉlective des Ressources), un cadre qui alloue sélectivement les ressources computationnelles en fonction de la difficulté du sous-problème. SCALE fonctionne en quatre étapes : (1) la décomposition du problème en sous-problèmes de raisonnement séquentiels, (2) l'évaluation de la difficulté de chaque sous-problème pour distinguer les opérations routinières des sous-problèmes computationnellement exigeants, (3) l'attribution sélective d'un mode de traitement entre le Système 1 pour les sous-problèmes simples et le Système 2 pour les sous-problèmes complexes, et (4) l'exécution séquentielle avec propagation du contexte. En concentrant les ressources sur les sous-problèmes difficiles tout en traitant efficacement les opérations routinières, SCALE obtient des améliorations substantielles de performance avec une utilisation supérieure des ressources. Des expériences approfondies démontrent que SCALE surpasse significativement les lignes de base d'ajustement uniforme, atteignant des gains de précision allant jusqu'à 13,75 points de pourcentage (de 57,50 % à 71,25 % sur AIME25) tout en réduisant les coûts computationnels de 33 % à 53 %, représentant une avancée majeure dans l'ajustement au moment du test qui répond aux limitations fondamentales des approches actuelles.
English
Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.