MUR: Momentum-Unsicherheitsgeleitetes Reasoning für große Sprachmodelle
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
papers.authors: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei aufwendigen Denkaufgaben erzielt, doch die Optimierung ihrer Denkeffizienz bleibt eine offene Herausforderung. Während Test-Time Scaling (TTS) die Qualität des Denkens verbessert, führt es oft zu Überdenken, was Token für redundante Berechnungen verschwendet. Diese Arbeit untersucht, wie man das Test-Time Scaling von LLMs effizient und adaptiv steuern kann, ohne zusätzliches Training zu benötigen. Inspiriert vom physikalischen Konzept des Momentums schlagen wir Momentum Uncertainty-guided Reasoning (MUR) vor, das Denkbudgets dynamisch auf kritische Denkschritte verteilt, indem es schrittweise Unsicherheit über die Zeit verfolgt und aggregiert. Um eine flexible Steuerung zur Inferenzzeit zu ermöglichen, führen wir Gamma-Kontrolle ein, einen einfachen Mechanismus, der das Denkbudget über einen einzigen Hyperparameter anpasst. Wir liefern einen detaillierten theoretischen Beweis, der die Überlegenheit von MUR in Bezug auf Stabilität und Verzerrungen unterstützt. MUR wird umfassend gegen verschiedene TTS-Methoden auf vier anspruchsvollen Benchmarks (MATH-500, AIME24, AIME25 und GPQA-diamond) mit verschiedenen Größen der aktuellen Qwen3-Modelle (1,7B, 4B und 8B) evaluiert. Die Ergebnisse zeigen, dass MUR die Berechnungen im Durchschnitt um über 50 % reduziert und gleichzeitig die Genauigkeit um 0,62–3,37 % verbessert.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.