Масштабирование вычислений LLM во время тестирования может быть более эффективным, чем масштабирование параметров модели.Scaling LLM Test-Time Compute Optimally can be More Effective than
Scaling Model Parameters
Обеспечение возможности LLM улучшать свои результаты за счет увеличения вычислительных ресурсов во время тестирования является критическим шагом к созданию в целом самоулучшающихся агентов, способных работать с открытым естественным языком. В данной статье мы изучаем масштабирование вычислений во время вывода в LLM с акцентом на ответ на вопрос: если LLM может использовать фиксированное, но значительное количество вычислительных ресурсов во время вывода, насколько он может улучшить свою производительность на сложном запросе? Ответ на этот вопрос имеет значение не только для достижимой производительности LLM, но также для будущего предварительного обучения LLM и того, как следует балансировать вычисления во время вывода и предварительного обучения. Несмотря на его важность, мало исследований предпринято для понимания масштабирования различных методов вывода во время тестирования. Более того, текущие работы в основном предоставляют отрицательные результаты для ряда из этих стратегий. В данной работе мы анализируем два основных механизма для масштабирования вычислений во время тестирования: (1) поиск по плотным моделям вознаграждения на основе процессов; и (2) обновление распределения модели по ответу адаптивно, учитывая запрос во время тестирования. Мы обнаруживаем, что в обоих случаях эффективность различных подходов к масштабированию вычислений во время тестирования критически изменяется в зависимости от сложности запроса. Это наблюдение мотивирует применение "вычислительно оптимальной" стратегии масштабирования, которая действует наиболее эффективно для адаптивного распределения вычислительных ресурсов во время тестирования для каждого запроса. Используя эту вычислительно оптимальную стратегию, мы можем улучшить эффективность масштабирования вычислений во время тестирования более чем в 4 раза по сравнению с базовым методом выбора лучшего из N. Кроме того, в рамках сопоставления FLOPs мы обнаруживаем, что на проблемах, где более маленькая базовая модель достигает относительно значительных успехов, вычисления во время тестирования могут использоваться для превзойти модель в 14 раз большего размера.