MUR: Ragionamento Guidato dall'Incertezza del Momento per Modelli Linguistici di Grande Scala
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
Autori: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
Abstract
I Large Language Model (LLM) hanno ottenuto prestazioni impressionanti in compiti ad alta intensità di ragionamento, ma ottimizzare la loro efficienza di ragionamento rimane una sfida aperta. Sebbene il Test-Time Scaling (TTS) migliori la qualità del ragionamento, spesso porta a un eccesso di pensiero, sprecando token su calcoli ridondanti. Questo lavoro indaga come guidare in modo efficiente e adattivo il test-time scaling degli LLM senza ulteriore addestramento. Ispirati dal concetto di momento in fisica, proponiamo il Momentum Uncertainty-guided Reasoning (MUR), che assegna dinamicamente budget di pensiero ai passaggi critici del ragionamento monitorando e aggregando l'incertezza passo-passo nel tempo. Per supportare un controllo flessibile al momento dell'inferenza, introduciamo il gamma-control, un meccanismo semplice che regola il budget di ragionamento attraverso un singolo iperparametro. Forniamo una prova teorica approfondita per supportare la superiorità di MUR in termini di stabilità e bias. MUR è valutato in modo completo rispetto a vari metodi TTS su quattro benchmark impegnativi (MATH-500, AIME24, AIME25 e GPQA-diamond) utilizzando diverse dimensioni dei recenti modelli Qwen3 (1.7B, 4B e 8B). I risultati dimostrano che MUR riduce il calcolo di oltre il 50% in media, migliorando al contempo l'accuratezza dello 0.62-3.37%.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.