SCALE: Селективное распределение ресурсов для преодоления узких мест производительности при масштабировании математических моделей во время тестирования

Аннотация

Масштабирование вычислительных ресурсов на этапе тестирования стало мощной парадигмой для улучшения математических рассуждений в больших языковых моделях (LLM) за счет выделения дополнительных вычислительных ресурсов во время вывода. Однако современные методы используют равномерное распределение ресурсов по всем подзадачам рассуждения, создавая фундаментальные узкие места, когда сложные подзадачи получают недостаточно внимания, а рутинные операции потребляют непропорционально много ресурсов. Такое равномерное распределение создает узкие места в производительности, при которых дополнительные вычислительные ресурсы дают diminishing returns (убывающую отдачу). Вдохновленные теорией двойственных процессов, мы предлагаем SCALE (Selective Resource Allocation) — фреймворк, который выборочно распределяет вычислительные ресурсы в зависимости от сложности подзадачи. SCALE работает в четыре этапа: (1) декомпозиция задачи на последовательные подзадачи рассуждения, (2) оценка сложности каждой подзадачи для различения рутинных операций и вычислительно сложных подзадач, (3) назначение выборочного режима обработки между Системой 1 для простых подзадач и Системой 2 для сложных и (4) последовательное выполнение с передачей контекста. Концентрируя ресурсы на сложных подзадачах при эффективной обработке рутинных операций, SCALE достигает существенного улучшения производительности с превосходным использованием ресурсов. Многочисленные эксперименты демонстрируют, что SCALE значительно превосходит базовые методы равномерного масштабирования, достигая улучшения точности до 13.75 процентных пунктов (с 57.50% до 71.25% на AIME25) при одновременном снижении вычислительных затрат на 33%-53%, что представляет собой значительный прогресс в масштабировании на этапе тестирования, устраняющий фундаментальные ограничения современных подходов.

English

Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.

SCALE: Селективное распределение ресурсов для преодоления узких мест производительности при масштабировании математических моделей во время тестирования

SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

Аннотация

Support