Uma Lei de Escala Simples e Comprovável para o Cálculo de Tempo de Teste de Modelos de Linguagem Grandes

Resumo

Propomos um algoritmo geral de dois estágios que desfruta de uma lei de escalonamento comprovada para o cálculo de tempo de teste de grandes modelos de linguagem (LLMs). Dado um problema de entrada, o algoritmo proposto primeiro gera N soluções candidatas e, em seguida, escolhe a melhor por meio de um torneio de eliminação de múltiplas rodadas, onde cada par de candidatos é comparado K vezes e apenas os vencedores avançam para a próxima rodada. Em uma implementação minimalista, ambos os estágios podem ser executados apenas com um LLM de caixa-preta e nada mais (por exemplo, sem verificador externo ou modelo de recompensa), e um total de N vezes (K + 1) chamadas altamente paralelizáveis de LLM são necessárias para resolver um problema de entrada. Supondo que uma solução candidata gerada esteja correta com probabilidade p_{gen} > 0 e que uma comparação entre um par de soluções corretas e incorretas identifique o vencedor correto com probabilidade p_{comp} > 0.5 (ou seja, melhor do que um palpite aleatório), provamos teoricamente que a probabilidade de falha do algoritmo proposto decai exponencialmente para zero em relação a N e K: $P(a saída final está incorreta) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Nossos resultados empíricos com o desafiador benchmark MMLU-Pro validam as suposições técnicas, bem como a eficácia do algoritmo proposto e os ganhos ao aumentar o cálculo de tempo de teste.

English

We propose a general two-stage algorithm that enjoys a provable scaling law for the test-time compute of large language models (LLMs). Given an input problem, the proposed algorithm first generates N candidate solutions, and then chooses the best one via a multiple-round knockout tournament where each pair of candidates are compared for K times and only the winners move on to the next round. In a minimalistic implementation, both stages can be executed with a black-box LLM alone and nothing else (e.g., no external verifier or reward model), and a total of N times (K + 1) highly parallelizable LLM calls are needed for solving an input problem. Assuming that a generated candidate solution is correct with probability p_{gen} > 0 and a comparison between a pair of correct and incorrect solutions identifies the right winner with probability p_{comp} > 0.5 (i.e., better than a random guess), we prove theoretically that the failure probability of the proposed algorithm decays to zero exponentially with respect to N and K: $P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical results with the challenging MMLU-Pro benchmark validate the technical assumptions, as well as the efficacy of the proposed algorithm and the gains from scaling up its test-time compute.

Uma Lei de Escala Simples e Comprovável para o Cálculo de Tempo de Teste de Modelos de Linguagem Grandes

A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Resumo

Support