MUR: Рассуждение с учетом неопределенности импульса для больших языковых моделей
MUR: Momentum Uncertainty guided Reasoning for Large Language Models
July 20, 2025
Авторы: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие результаты в задачах, требующих интенсивного рассуждения, однако оптимизация их эффективности в таких задачах остается открытой проблемой. Хотя масштабирование на этапе тестирования (Test-Time Scaling, TTS) улучшает качество рассуждений, оно часто приводит к избыточному анализу, тратя токены на повторяющиеся вычисления. В данной работе исследуется, как эффективно и адаптивно управлять масштабированием LLM на этапе тестирования без дополнительного обучения. Вдохновленные концепцией импульса в физике, мы предлагаем метод Momentum Uncertainty-guided Reasoning (MUR), который динамически распределяет вычислительные ресурсы на ключевые этапы рассуждений, отслеживая и агрегируя пошаговую неопределенность во времени. Для обеспечения гибкого управления на этапе вывода мы вводим gamma-control — простой механизм, который регулирует бюджет рассуждений с помощью одного гиперпараметра. Мы предоставляем подробное теоретическое обоснование, подтверждающее превосходство MUR с точки зрения стабильности и смещений. MUR всесторонне оценивается в сравнении с различными методами TTS на четырех сложных тестовых наборах (MATH-500, AIME24, AIME25 и GPQA-diamond) с использованием моделей Qwen3 разных размеров (1.7B, 4B и 8B). Результаты показывают, что MUR сокращает вычисления в среднем более чем на 50%, одновременно повышая точность на 0.62–3.37%.
English
Large Language Models (LLMs) have achieved impressive performance on
reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an
open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it
often leads to overthinking, wasting tokens on redundant computations. This
work investigates how to efficiently and adaptively guide LLM test-time scaling
without additional training. Inspired by the concept of momentum in physics, we
propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically
allocates thinking budgets to critical reasoning steps by tracking and
aggregating stepwise uncertainty over time. To support flexible inference-time
control, we introduce gamma-control, a simple mechanism that tunes the
reasoning budget via a single hyperparameter. We provide in-depth theoretical
proof to support the superiority of MUR in terms of stability and biases. MUR
is comprehensively evaluated against various TTS methods across four
challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using
different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate
that MUR reduces computation by over 50% on average while improving accuracy by
0.62-3.37%.