Планирование и бюджетирование: Эффективное и рациональное масштабирование на этапе тестирования для рассуждений в больших языковых моделях

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов в выполнении сложных задач на рассуждение, однако их выводы остаются вычислительно неэффективными. Мы наблюдаем общий сбой в работе многих популярных LLM — чрезмерное обдумывание (overthinking), когда модели генерируют избыточные и второстепенные цепочки рассуждений даже для простых запросов. Недавние работы пытались устранить это, устанавливая фиксированные бюджеты токенов, однако это может привести к недостаточному обдумыванию (underthinking), особенно в более сложных задачах. Эмпирический анализ показывает, что эта неэффективность часто связана с нечеткими стратегиями решения задач. Чтобы формализовать это, мы разработали теоретическую модель BBAM (Bayesian Budget Allocation Model), которая моделирует рассуждение как последовательность подвопросов с различной степенью неопределенности, и ввели метрику E^3 для учета компромисса между точностью и вычислительной эффективностью. На основе теоретических результатов BBAM мы предлагаем Plan-and-Budget — модель-независимую структуру для тестирования, которая разбивает сложные запросы на подвопросы и распределяет бюджеты токенов на основе предполагаемой сложности с использованием адаптивного планирования. Plan-and-Budget повышает эффективность рассуждений в различных задачах и моделях, достигая улучшения точности до +70%, сокращения токенов на -39% и улучшения E^3 на +187,5%. Примечательно, что она позволяет меньшей модели (DS-Qwen-32B) достичь эффективности более крупной модели (DS-LLaMA-70B), демонстрируя способность Plan-and-Budget устранять разрыв в производительности без переобучения. Наш код доступен по адресу anonymous.4open.science/r/P-and-B-6513/.

English

Large Language Models (LLMs) have achieved remarkable success in complex reasoning tasks, but their inference remains computationally inefficient. We observe a common failure mode in many prevalent LLMs, overthinking, where models generate verbose and tangential reasoning traces even for simple queries. Recent works have tried to mitigate this by enforcing fixed token budgets, however, this can lead to underthinking, especially on harder problems. Through empirical analysis, we identify that this inefficiency often stems from unclear problem-solving strategies. To formalize this, we develop a theoretical model, BBAM (Bayesian Budget Allocation Model), which models reasoning as a sequence of sub-questions with varying uncertainty, and introduce the E^3 metric to capture the trade-off between correctness and computation efficiency. Building on theoretical results from BBAM, we propose Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex queries into sub-questions and allocates token budgets based on estimated complexity using adaptive scheduling. Plan-and-Budget improves reasoning efficiency across a range of tasks and models, achieving up to +70% accuracy gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close performance gaps without retraining. Our code is available at anonymous.4open.science/r/P-and-B-6513/.

Планирование и бюджетирование: Эффективное и рациональное масштабирование на этапе тестирования для рассуждений в больших языковых моделях

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Аннотация

Support