Может ли 1 миллиардный языковой модельный (1B LLM) превзойти 405 миллиардный языковой модельный (405B LLM)? Переосмысление масштабирования вычислений в оптимальное время тестирования.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
February 10, 2025
Авторы: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
cs.AI
Аннотация
Масштабирование времени тестирования (Test-Time Scaling, TTS) является важным методом для улучшения производительности Больших Языковых Моделей (Large Language Models, LLMs) путем использования дополнительных вычислений во время фазы вывода. Однако текущие исследования не систематически анализируют, как модели политики, модели вознаграждения процесса (Process Reward Models, PRMs) и сложность задачи влияют на TTS. Этот недостаток анализа ограничивает понимание и практическое применение методов TTS. В данной статье мы сосредотачиваемся на двух основных вопросах: (1) Какой оптимальный подход к масштабированию вычислений времени тестирования для различных моделей политики, PRMs и уровней сложности задачи? (2) Насколько дополнительные вычисления могут улучшить производительность LLMs на сложных задачах, и могут ли более маленькие языковые модели превзойти более крупные через этот подход? Проведя комплексные эксперименты на задачах MATH-500 и сложных задачах AIME24, мы пришли к следующим наблюдениям: (1) Оптимальная стратегия вычислений TTS сильно зависит от выбора модели политики, PRM и сложности задачи. (2) С нашей оптимальной стратегией вычислений TTS крайне маленькие модели политики могут превзойти более крупные модели. Например, 1B LLM может превзойти 405B LLM на задаче MATH-500. Более того, как на задаче MATH-500, так и на AIME24, 0.5B LLM превосходит GPT-4o, 3B LLM превосходит 405B LLM, а 7B LLM обгоняет o1 и DeepSeek-R1, обладая более высокой эффективностью вывода. Эти результаты показывают важность адаптации стратегий TTS к конкретным характеристикам каждой задачи и модели, а также указывают на то, что TTS является многообещающим подходом для улучшения рассуждений LLMs.
English
Test-Time Scaling (TTS) is an important method for improving the performance
of Large Language Models (LLMs) by using additional computation during the
inference phase. However, current studies do not systematically analyze how
policy models, Process Reward Models (PRMs), and problem difficulty influence
TTS. This lack of analysis limits the understanding and practical use of TTS
methods. In this paper, we focus on two core questions: (1) What is the optimal
approach to scale test-time computation across different policy models, PRMs,
and problem difficulty levels? (2) To what extent can extended computation
improve the performance of LLMs on complex tasks, and can smaller language
models outperform larger ones through this approach? Through comprehensive
experiments on MATH-500 and challenging AIME24 tasks, we have the following
observations: (1) The compute-optimal TTS strategy is highly dependent on the
choice of policy model, PRM, and problem difficulty. (2) With our
compute-optimal TTS strategy, extremely small policy models can outperform
larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500.
Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM
surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher
inference efficiency. These findings show the significance of adapting TTS
strategies to the specific characteristics of each task and model and indicate
that TTS is a promising approach for enhancing the reasoning abilities of LLMs.Summary
AI-Generated Summary