MUR : Raisonnement guidé par l'incertitude de momentum pour les grands modèles de langage

papers.abstract

Les modèles de langage de grande taille (LLMs) ont atteint des performances impressionnantes sur des tâches nécessitant un raisonnement approfondi, mais l'optimisation de leur efficacité de raisonnement reste un défi ouvert. Bien que la mise à l'échelle au moment du test (Test-Time Scaling, TTS) améliore la qualité du raisonnement, elle conduit souvent à une surréflexion, gaspillant des tokens sur des calculs redondants. Ce travail explore comment guider efficacement et de manière adaptative la mise à l'échelle des LLMs au moment du test sans entraînement supplémentaire. Inspiré par le concept de momentum en physique, nous proposons le Raisonnement Guidé par l'Incertitude de Momentum (Momentum Uncertainty-guided Reasoning, MUR), qui alloue dynamiquement des budgets de réflexion aux étapes critiques du raisonnement en suivant et en agrégeant l'incertitude étape par étape au fil du temps. Pour permettre un contrôle flexible au moment de l'inférence, nous introduisons le gamma-control, un mécanisme simple qui ajuste le budget de raisonnement via un seul hyperparamètre. Nous fournissons une preuve théorique approfondie pour soutenir la supériorité de MUR en termes de stabilité et de biais. MUR est évalué de manière exhaustive contre diverses méthodes de TTS sur quatre benchmarks exigeants (MATH-500, AIME24, AIME25 et GPQA-diamond) en utilisant différentes tailles des récents modèles Qwen3 (1,7B, 4B et 8B). Les résultats démontrent que MUR réduit les calculs de plus de 50 % en moyenne tout en améliorant la précision de 0,62 à 3,37 %.

English

Large Language Models (LLMs) have achieved impressive performance on reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it often leads to overthinking, wasting tokens on redundant computations. This work investigates how to efficiently and adaptively guide LLM test-time scaling without additional training. Inspired by the concept of momentum in physics, we propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically allocates thinking budgets to critical reasoning steps by tracking and aggregating stepwise uncertainty over time. To support flexible inference-time control, we introduce gamma-control, a simple mechanism that tunes the reasoning budget via a single hyperparameter. We provide in-depth theoretical proof to support the superiority of MUR in terms of stability and biases. MUR is comprehensively evaluated against various TTS methods across four challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate that MUR reduces computation by over 50% on average while improving accuracy by 0.62-3.37%.

MUR : Raisonnement guidé par l'incertitude de momentum pour les grands modèles de langage

MUR: Momentum Uncertainty guided Reasoning for Large Language Models

papers.abstract

Support