SKALIERUNG: Selektive Ressourcenzuteilung zur Überwindung von Leistungsengpässen beim mathematischen Skalieren zur Testzeit
SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
November 29, 2025
papers.authors: Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu
cs.AI
papers.abstract
Die Skalierung der Rechenleistung zur Testzeit hat sich als leistungsfähiges Paradigma erwiesen, um das mathematische Denkvermögen großer Sprachmodelle (LLMs) durch die Zuteilung zusätzlicher Rechenressourcen während des Inferenzvorgangs zu verbessern. Allerdings verwenden aktuelle Methoden eine einheitliche Ressourcenverteilung über alle Teilprobleme der Argumentation hinweg, was grundlegende Engpässe verursacht: anspruchsvolle Teilprobleme erhalten unzureichend Aufmerksamkeit, während Routineoperationen unverhältnismäßig viele Ressourcen verbrauchen. Diese gleichmäßige Zuteilung führt zu Leistungsengpässen, bei denen zusätzliche Rechenressourcen nur noch geringere Leistungssteigerungen bringen. Inspiriert von der Dual-Prozess-Theorie schlagen wir SCALE (Selective Resource Allocation) vor, ein Framework, das Rechenressourcen selektiv basierend auf dem Schwierigkeitsgrad der Teilprobleme zuteilt. SCALE operiert in vier Stufen: (1) Problemzerlegung in sequentielle reasoning-Teilprobleme, (2) Schwierigkeitsbewertung jedes Teilproblems, um zwischen Routineoperationen und rechenintensiven Herausforderungen zu unterscheiden, (3) selektive Zuordnung des Verarbeitungsmodus zwischen System 1 für einfache Teilprobleme und System 2 für komplexe Teilprobleme und (4) sequentielle Ausführung mit Kontextweitergabe. Indem Ressourcen auf anspruchsvolle Teilprobleme konzentriert werden, während Routineoperationen effizient abgearbeitet werden, erzielt SCALE erhebliche Leistungsverbesserungen bei überlegener Ressourcennutzung. Umfangreiche Experimente belegen, dass SCALE gleichmäßig skalierende Baseline-Methoden signifikant übertrifft und Genauigkeitssteigerungen von bis zu 13,75 Prozentpunkten erzielt (57,50 % zu 71,25 % auf AIME25), während die Rechenkosten um 33 %–53 % gesenkt werden. Dies stellt einen bedeutenden Fortschritt in der Testzeit-Skalierung dar, der die grundlegenden Limitierungen aktueller Ansätze adressiert.
English
Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose SCALE (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.