Een Eenvoudige en Bewijsbare Schalingswet voor de Rekenkracht bij het Testen van Grote Taalmodellen
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
November 29, 2024
Auteurs: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Samenvatting
We stellen een algemeen tweestapsalgoritme voor dat profiteert van een aantoonbare schaalwet voor de rekentijd van grote taalmodellen (TMs) tijdens het testen. Bij een invoerprobleem genereert het voorgestelde algoritme eerst N kandidaatoplossingen en kiest vervolgens de beste via een knock-outtoernooi in meerdere rondes waarbij elk paar kandidaten K keer wordt vergeleken en alleen de winnaars doorgaan naar de volgende ronde. In een minimalistische implementatie kunnen beide stappen worden uitgevoerd met alleen een black-box TM en niets anders (bijv. geen externe verifier of beloningsmodel), en is in totaal N keer (K + 1) sterk parallelle TM-oproepen nodig om een invoerprobleem op te lossen. Als wordt aangenomen dat een gegenereerde kandidaatoplossing correct is met een waarschijnlijkheid p_{gen} > 0 en een vergelijking tussen een paar correcte en incorrecte oplossingen de juiste winnaar identificeert met een waarschijnlijkheid p_{comp} > 0.5 (d.w.z. beter dan een willekeurige gok), dan bewijzen we theoretisch dat de faalkans van het voorgestelde algoritme exponentieel afneemt met betrekking tot N en K: $P(eindresultaat is onjuist) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Onze empirische resultaten met de uitdagende MMLU-Pro benchmark bevestigen de technische aannames, evenals de doeltreffendheid van het voorgestelde algoritme en de voordelen van het opschalen van de rekentijd tijdens het testen.
English
We propose a general two-stage algorithm that enjoys a provable scaling law
for the test-time compute of large language models (LLMs). Given an input
problem, the proposed algorithm first generates N candidate solutions, and
then chooses the best one via a multiple-round knockout tournament where each
pair of candidates are compared for K times and only the winners move on to
the next round. In a minimalistic implementation, both stages can be executed
with a black-box LLM alone and nothing else (e.g., no external verifier or
reward model), and a total of N times (K + 1) highly parallelizable LLM
calls are needed for solving an input problem. Assuming that a generated
candidate solution is correct with probability p_{gen} > 0 and a
comparison between a pair of correct and incorrect solutions identifies the
right winner with probability p_{comp} > 0.5 (i.e., better than a
random guess), we prove theoretically that the failure probability of the
proposed algorithm decays to zero exponentially with respect to N and K:
$P(final output is incorrect) le (1 - p_{gen})^N +
lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical
results with the challenging MMLU-Pro benchmark validate the technical
assumptions, as well as the efficacy of the proposed algorithm and the gains
from scaling up its test-time compute.