Планирование и бюджетирование: Эффективное и рациональное масштабирование на этапе тестирования для рассуждений в больших языковых моделях
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
May 22, 2025
Авторы: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в выполнении сложных задач на рассуждение, однако их выводы остаются вычислительно неэффективными. Мы наблюдаем общий сбой в работе многих популярных LLM — чрезмерное обдумывание (overthinking), когда модели генерируют избыточные и второстепенные цепочки рассуждений даже для простых запросов. Недавние работы пытались устранить это, устанавливая фиксированные бюджеты токенов, однако это может привести к недостаточному обдумыванию (underthinking), особенно в более сложных задачах. Эмпирический анализ показывает, что эта неэффективность часто связана с нечеткими стратегиями решения задач. Чтобы формализовать это, мы разработали теоретическую модель BBAM (Bayesian Budget Allocation Model), которая моделирует рассуждение как последовательность подвопросов с различной степенью неопределенности, и ввели метрику E^3 для учета компромисса между точностью и вычислительной эффективностью. На основе теоретических результатов BBAM мы предлагаем Plan-and-Budget — модель-независимую структуру для тестирования, которая разбивает сложные запросы на подвопросы и распределяет бюджеты токенов на основе предполагаемой сложности с использованием адаптивного планирования. Plan-and-Budget повышает эффективность рассуждений в различных задачах и моделях, достигая улучшения точности до +70%, сокращения токенов на -39% и улучшения E^3 на +187,5%. Примечательно, что она позволяет меньшей модели (DS-Qwen-32B) достичь эффективности более крупной модели (DS-LLaMA-70B), демонстрируя способность Plan-and-Budget устранять разрыв в производительности без переобучения. Наш код доступен по адресу anonymous.4open.science/r/P-and-B-6513/.
English
Large Language Models (LLMs) have achieved remarkable success in complex
reasoning tasks, but their inference remains computationally inefficient. We
observe a common failure mode in many prevalent LLMs, overthinking, where
models generate verbose and tangential reasoning traces even for simple
queries. Recent works have tried to mitigate this by enforcing fixed token
budgets, however, this can lead to underthinking, especially on harder
problems. Through empirical analysis, we identify that this inefficiency often
stems from unclear problem-solving strategies. To formalize this, we develop a
theoretical model, BBAM (Bayesian Budget Allocation Model), which models
reasoning as a sequence of sub-questions with varying uncertainty, and
introduce the E^3 metric to capture the trade-off between correctness and
computation efficiency. Building on theoretical results from BBAM, we propose
Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex
queries into sub-questions and allocates token budgets based on estimated
complexity using adaptive scheduling. Plan-and-Budget improves reasoning
efficiency across a range of tasks and models, achieving up to +70% accuracy
gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it
elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger
model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close
performance gaps without retraining. Our code is available at
anonymous.4open.science/r/P-and-B-6513/.