Масштабирование вычислений LLM во время тестирования может быть более эффективным, чем масштабирование параметров модели.

Аннотация

Обеспечение возможности LLM улучшать свои результаты за счет увеличения вычислительных ресурсов во время тестирования является критическим шагом к созданию в целом самоулучшающихся агентов, способных работать с открытым естественным языком. В данной статье мы изучаем масштабирование вычислений во время вывода в LLM с акцентом на ответ на вопрос: если LLM может использовать фиксированное, но значительное количество вычислительных ресурсов во время вывода, насколько он может улучшить свою производительность на сложном запросе? Ответ на этот вопрос имеет значение не только для достижимой производительности LLM, но также для будущего предварительного обучения LLM и того, как следует балансировать вычисления во время вывода и предварительного обучения. Несмотря на его важность, мало исследований предпринято для понимания масштабирования различных методов вывода во время тестирования. Более того, текущие работы в основном предоставляют отрицательные результаты для ряда из этих стратегий. В данной работе мы анализируем два основных механизма для масштабирования вычислений во время тестирования: (1) поиск по плотным моделям вознаграждения на основе процессов; и (2) обновление распределения модели по ответу адаптивно, учитывая запрос во время тестирования. Мы обнаруживаем, что в обоих случаях эффективность различных подходов к масштабированию вычислений во время тестирования критически изменяется в зависимости от сложности запроса. Это наблюдение мотивирует применение "вычислительно оптимальной" стратегии масштабирования, которая действует наиболее эффективно для адаптивного распределения вычислительных ресурсов во время тестирования для каждого запроса. Используя эту вычислительно оптимальную стратегию, мы можем улучшить эффективность масштабирования вычислений во время тестирования более чем в 4 раза по сравнению с базовым методом выбора лучшего из N. Кроме того, в рамках сопоставления FLOPs мы обнаруживаем, что на проблемах, где более маленькая базовая модель достигает относительно значительных успехов, вычисления во время тестирования могут использоваться для превзойти модель в 14 раз большего размера.

English

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.

Масштабирование вычислений LLM во время тестирования может быть более эффективным, чем масштабирование параметров модели.

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Аннотация

Support