Una Ley de Escalado Simple y Demostrable para el Cálculo en Tiempo de Prueba de Modelos de Lenguaje Grandes
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
November 29, 2024
Autores: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumen
Proponemos un algoritmo general de dos etapas que disfruta de una ley de escalado demostrable para el cálculo en tiempo de prueba de grandes modelos de lenguaje (LLMs). Dado un problema de entrada, el algoritmo propuesto primero genera N soluciones candidatas, y luego elige la mejor a través de un torneo de eliminación múltiple en el que cada par de candidatos se compara K veces y solo los ganadores avanzan a la siguiente ronda. En una implementación minimalista, ambas etapas pueden ejecutarse solo con un LLM de caja negra y nada más (por ejemplo, sin verificador externo o modelo de recompensa), y se necesitan un total de N veces (K + 1) llamadas altamente paralelizables al LLM para resolver un problema de entrada. Suponiendo que una solución candidata generada es correcta con una probabilidad p_{gen} > 0 y que una comparación entre un par de soluciones correctas e incorrectas identifica al ganador correcto con una probabilidad p_{comp} > 0.5 (es decir, mejor que una suposición aleatoria), demostramos teóricamente que la probabilidad de falla del algoritmo propuesto decae exponencialmente a cero con respecto a N y K: $P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Nuestros resultados empíricos con el desafiante banco de pruebas MMLU-Pro validan las suposiciones técnicas, así como la eficacia del algoritmo propuesto y las ganancias al escalar su cálculo en tiempo de prueba.
English
We propose a general two-stage algorithm that enjoys a provable scaling law
for the test-time compute of large language models (LLMs). Given an input
problem, the proposed algorithm first generates N candidate solutions, and
then chooses the best one via a multiple-round knockout tournament where each
pair of candidates are compared for K times and only the winners move on to
the next round. In a minimalistic implementation, both stages can be executed
with a black-box LLM alone and nothing else (e.g., no external verifier or
reward model), and a total of N times (K + 1) highly parallelizable LLM
calls are needed for solving an input problem. Assuming that a generated
candidate solution is correct with probability p_{gen} > 0 and a
comparison between a pair of correct and incorrect solutions identifies the
right winner with probability p_{comp} > 0.5 (i.e., better than a
random guess), we prove theoretically that the failure probability of the
proposed algorithm decays to zero exponentially with respect to N and K:
$P(final output is incorrect) le (1 - p_{gen})^N +
lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical
results with the challenging MMLU-Pro benchmark validate the technical
assumptions, as well as the efficacy of the proposed algorithm and the gains
from scaling up its test-time compute.Summary
AI-Generated Summary