MUR: Razonamiento Guiado por Incertidumbre de Momentum para Modelos de Lenguaje de Gran Escala
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
Autores: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un rendimiento impresionante en tareas que requieren razonamiento intensivo, aunque optimizar su eficiencia en el razonamiento sigue siendo un desafío abierto. Si bien el Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) mejora la calidad del razonamiento, a menudo conduce a un sobrepensamiento, desperdiciando tokens en cálculos redundantes. Este trabajo investiga cómo guiar de manera eficiente y adaptativa el escalado en tiempo de prueba de los LLMs sin necesidad de entrenamiento adicional. Inspirados por el concepto de momento en física, proponemos el Razonamiento Guiado por Incertidumbre de Momento (MUR, por sus siglas en inglés), que asigna dinámicamente presupuestos de pensamiento a pasos críticos del razonamiento mediante el seguimiento y la agregación de la incertidumbre paso a paso a lo largo del tiempo. Para permitir un control flexible en tiempo de inferencia, introducimos el control gamma, un mecanismo simple que ajusta el presupuesto de razonamiento mediante un único hiperparámetro. Proporcionamos una prueba teórica detallada para respaldar la superioridad de MUR en términos de estabilidad y sesgos. MUR es evaluado exhaustivamente frente a varios métodos de TTS en cuatro benchmarks desafiantes (MATH-500, AIME24, AIME25 y GPQA-diamond) utilizando diferentes tamaños de los modelos recientes Qwen3 (1.7B, 4B y 8B). Los resultados demuestran que MUR reduce el cómputo en más del 50% en promedio, mientras mejora la precisión entre un 0.62% y un 3.37%.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.