Простой и доказуемый закон масштабирования для вычислений во время тестирования больших языковых моделей.
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
November 29, 2024
Авторы: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Аннотация
Мы предлагаем общий двухэтапный алгоритм, который обладает доказуемым законом масштабирования для вычислений на этапе тестирования больших языковых моделей (LLM). Учитывая входную проблему, предлагаемый алгоритм сначала генерирует N кандидатских решений, а затем выбирает лучшее из них с помощью многораундового турнира, где каждая пара кандидатов сравнивается K раз, и только победители переходят на следующий раунд. В минималистической реализации оба этапа могут быть выполнены только с помощью черного ящика LLM и ничего более (например, без внешнего верификатора или модели вознаграждения), и для решения входной проблемы требуется всего N раз (K + 1) параллельных вызовов LLM. Предполагая, что сгенерированное кандидатское решение верно с вероятностью p_{gen} > 0, а сравнение между парой правильных и неправильных решений идентифицирует правильного победителя с вероятностью p_{comp} > 0.5 (т.е. лучше случайного угадывания), мы теоретически доказываем, что вероятность ошибки предложенного алгоритма экспоненциально убывает с увеличением N и K: $P(финальный вывод неверен) \leq (1 - p_{gen})^N + \lceil log_2 N \rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Наши эмпирические результаты с трудным бенчмарком MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и выгоды от масштабирования его вычислений на этапе тестирования.
English
We propose a general two-stage algorithm that enjoys a provable scaling law
for the test-time compute of large language models (LLMs). Given an input
problem, the proposed algorithm first generates N candidate solutions, and
then chooses the best one via a multiple-round knockout tournament where each
pair of candidates are compared for K times and only the winners move on to
the next round. In a minimalistic implementation, both stages can be executed
with a black-box LLM alone and nothing else (e.g., no external verifier or
reward model), and a total of N times (K + 1) highly parallelizable LLM
calls are needed for solving an input problem. Assuming that a generated
candidate solution is correct with probability p_{gen} > 0 and a
comparison between a pair of correct and incorrect solutions identifies the
right winner with probability p_{comp} > 0.5 (i.e., better than a
random guess), we prove theoretically that the failure probability of the
proposed algorithm decays to zero exponentially with respect to N and K:
$P(final output is incorrect) le (1 - p_{gen})^N +
lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical
results with the challenging MMLU-Pro benchmark validate the technical
assumptions, as well as the efficacy of the proposed algorithm and the gains
from scaling up its test-time compute.Summary
AI-Generated Summary