MUR: Raciocínio Guiado por Incerteza de Momentum para Modelos de Linguagem de Grande Escala
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
Autores: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram desempenho impressionante em tarefas que exigem raciocínio intensivo, mas otimizar sua eficiência de raciocínio continua sendo um desafio em aberto. Embora o Escalonamento em Tempo de Teste (TTS) melhore a qualidade do raciocínio, ele frequentemente leva ao "overthinking", desperdiçando tokens em computações redundantes. Este trabalho investiga como orientar de forma eficiente e adaptativa o escalonamento em tempo de teste dos LLMs sem treinamento adicional. Inspirados pelo conceito de momento na física, propomos o Raciocínio Guiado por Incerteza de Momento (MUR), que aloca dinamicamente orçamentos de pensamento para etapas críticas de raciocínio, rastreando e agregando incertezas passo a passo ao longo do tempo. Para suportar controle flexível durante a inferência, introduzimos o gamma-control, um mecanismo simples que ajusta o orçamento de raciocínio por meio de um único hiperparâmetro. Fornecemos uma prova teórica detalhada para apoiar a superioridade do MUR em termos de estabilidade e vieses. O MUR é avaliado de forma abrangente contra vários métodos de TTS em quatro benchmarks desafiadores (MATH-500, AIME24, AIME25 e GPQA-diamond) utilizando diferentes tamanhos dos modelos recentes Qwen3 (1.7B, 4B e 8B). Os resultados demonstram que o MUR reduz a computação em mais de 50% em média, enquanto melhora a precisão em 0,62-3,37%.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.