Dimensionar de forma otimizada o cálculo do tempo de teste do LLM pode ser mais eficaz do que dimensionar os parâmetros do modelo.

Resumo

Permitir que LLMs melhorem suas saídas ao utilizar mais computação no tempo de teste é um passo crítico em direção à construção de agentes geralmente autoaperfeiçoantes que possam operar em linguagem natural de forma aberta. Neste artigo, estudamos a escalabilidade da computação no tempo de inferência em LLMs, com foco em responder à pergunta: se um LLM pode usar uma quantidade fixa, porém significativa, de computação no tempo de inferência, quanto ele pode melhorar seu desempenho em um prompt desafiador? Responder a essa pergunta tem implicações não apenas no desempenho alcançável dos LLMs, mas também no futuro do pré-treinamento de LLMs e como se deve equilibrar a computação no tempo de inferência e no pré-treinamento. Apesar de sua importância, pouca pesquisa tentou entender os comportamentos de escalabilidade de vários métodos de inferência no tempo de teste. Além disso, os trabalhos atuais em sua maioria fornecem resultados negativos para várias dessas estratégias. Neste trabalho, analisamos dois mecanismos principais para escalar a computação no tempo de teste: (1) busca em modelos de recompensa verificadores densos baseados em processos; e (2) atualização da distribuição do modelo sobre uma resposta de forma adaptativa, dada a solicitação no tempo de teste. Constatamos que, em ambos os casos, a eficácia de diferentes abordagens para escalar a computação no tempo de teste varia criticamente dependendo da dificuldade do prompt. Essa observação motiva a aplicação de uma estratégia de escalonamento "ótima em termos de computação", que atua para alocar de forma mais eficaz a computação no tempo de teste de forma adaptativa por prompt. Utilizando essa estratégia ótima em termos de computação, podemos melhorar a eficiência do escalonamento da computação no tempo de teste em mais de 4 vezes em comparação com uma linha de base de melhor-de-N. Além disso, em uma avaliação equiparada em FLOPs, constatamos que em problemas nos quais um modelo base menor alcança taxas de sucesso consideráveis, a computação no tempo de teste pode ser usada para superar um modelo 14 vezes maior.

English

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.

Dimensionar de forma otimizada o cálculo do tempo de teste do LLM pode ser mais eficaz do que dimensionar os parâmetros do modelo.

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Resumo

Summary

Support

Support