Une loi d'échelle simple et démontrable pour le calcul du temps de test des grands modèles de langage
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
November 29, 2024
Auteurs: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Résumé
Nous proposons un algorithme général en deux étapes qui bénéficie d'une loi d'échelle prouvable pour le calcul en temps de test de grands modèles de langage (LLM). Étant donné un problème d'entrée, l'algorithme proposé génère d'abord N solutions candidates, puis choisit la meilleure via un tournoi à élimination multiple où chaque paire de candidats est comparée K fois et seuls les gagnants passent au tour suivant. Dans une implémentation minimaliste, les deux étapes peuvent être exécutées uniquement avec un LLM en boîte noire et rien d'autre (par exemple, sans vérificateur externe ou modèle de récompense), et un total de N fois (K + 1) appels LLM hautement parallélisables sont nécessaires pour résoudre un problème d'entrée. En supposant qu'une solution candidate générée est correcte avec une probabilité p_{gen} > 0 et qu'une comparaison entre une paire de solutions correcte et incorrecte identifie le bon gagnant avec une probabilité p_{comp} > 0,5 (c'est-à-dire mieux qu'une supposition aléatoire), nous prouvons théoriquement que la probabilité d'échec de l'algorithme proposé décroît exponentiellement avec N et K : $P(la sortie finale est incorrecte) \leq (1 - p_{gen})^N + \lceil \log_2 N \rceil e^{-2 K (p_{comp} - 0,5)^2}$. Nos résultats empiriques avec le défi MMLU-Pro confirment les hypothèses techniques, ainsi que l'efficacité de l'algorithme proposé et les avantages de l'augmentation de son calcul en temps de test.
English
We propose a general two-stage algorithm that enjoys a provable scaling law
for the test-time compute of large language models (LLMs). Given an input
problem, the proposed algorithm first generates N candidate solutions, and
then chooses the best one via a multiple-round knockout tournament where each
pair of candidates are compared for K times and only the winners move on to
the next round. In a minimalistic implementation, both stages can be executed
with a black-box LLM alone and nothing else (e.g., no external verifier or
reward model), and a total of N times (K + 1) highly parallelizable LLM
calls are needed for solving an input problem. Assuming that a generated
candidate solution is correct with probability p_{gen} > 0 and a
comparison between a pair of correct and incorrect solutions identifies the
right winner with probability p_{comp} > 0.5 (i.e., better than a
random guess), we prove theoretically that the failure probability of the
proposed algorithm decays to zero exponentially with respect to N and K:
$P(final output is incorrect) le (1 - p_{gen})^N +
lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical
results with the challenging MMLU-Pro benchmark validate the technical
assumptions, as well as the efficacy of the proposed algorithm and the gains
from scaling up its test-time compute.Summary
AI-Generated Summary