MUR : Raisonnement guidé par l'incertitude de momentum pour les grands modèles de langage
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
papers.authors: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont atteint des performances impressionnantes sur des tâches nécessitant un raisonnement approfondi, mais l'optimisation de leur efficacité de raisonnement reste un défi ouvert. Bien que la mise à l'échelle au moment du test (Test-Time Scaling, TTS) améliore la qualité du raisonnement, elle conduit souvent à une surréflexion, gaspillant des tokens sur des calculs redondants. Ce travail explore comment guider efficacement et de manière adaptative la mise à l'échelle des LLMs au moment du test sans entraînement supplémentaire. Inspiré par le concept de momentum en physique, nous proposons le Raisonnement Guidé par l'Incertitude de Momentum (Momentum Uncertainty-guided Reasoning, MUR), qui alloue dynamiquement des budgets de réflexion aux étapes critiques du raisonnement en suivant et en agrégeant l'incertitude étape par étape au fil du temps. Pour permettre un contrôle flexible au moment de l'inférence, nous introduisons le gamma-control, un mécanisme simple qui ajuste le budget de raisonnement via un seul hyperparamètre. Nous fournissons une preuve théorique approfondie pour soutenir la supériorité de MUR en termes de stabilité et de biais. MUR est évalué de manière exhaustive contre diverses méthodes de TTS sur quatre benchmarks exigeants (MATH-500, AIME24, AIME25 et GPQA-diamond) en utilisant différentes tailles des récents modèles Qwen3 (1,7B, 4B et 8B). Les résultats démontrent que MUR réduit les calculs de plus de 50 % en moyenne tout en améliorant la précision de 0,62 à 3,37 %.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.