MUR: Momentum Onzekerheid Gestuurd Redeneren voor Grote Taalmodellen
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
Auteurs: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
Samenvatting
Large Language Models (LLMs) hebben indrukwekkende prestaties geleverd op taken die intensief redeneren vereisen, maar het optimaliseren van hun redeneerefficiëntie blijft een uitdaging. Hoewel Test-Time Scaling (TTS) de kwaliteit van het redeneren verbetert, leidt het vaak tot overdenken, waarbij tokens worden verspild aan overbodige berekeningen. Dit onderzoek onderzoekt hoe LLM test-time scaling efficiënt en adaptief kan worden gestuurd zonder aanvullende training. Geïnspireerd door het concept van momentum in de natuurkunde, stellen we Momentum Uncertainty-guided Reasoning (MUR) voor, dat dynamisch denkbudgetten toewijst aan kritieke redeneerstappen door stap-voor-stap onzekerheid in de tijd te volgen en te aggregeren. Om flexibele controle tijdens de inferentie te ondersteunen, introduceren we gamma-control, een eenvoudig mechanisme dat het redeneerbudget afstelt via een enkele hyperparameter. We bieden een diepgaand theoretisch bewijs om de superioriteit van MUR te ondersteunen op het gebied van stabiliteit en biases. MUR wordt uitgebreid geëvalueerd tegen verschillende TTS-methoden over vier uitdagende benchmarks (MATH-500, AIME24, AIME25 en GPQA-diamond) met behulp van verschillende groottes van recente Qwen3-modellen (1.7B, 4B en 8B). De resultaten tonen aan dat MUR de berekening met gemiddeld meer dan 50% vermindert terwijl de nauwkeurigheid met 0,62-3,37% wordt verbeterd.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.