Dimensionar de forma otimizada o cálculo do tempo de teste do LLM pode ser mais eficaz do que dimensionar os parâmetros do modelo.Scaling LLM Test-Time Compute Optimally can be More Effective than
Scaling Model Parameters
Permitir que LLMs melhorem suas saídas ao utilizar mais computação no tempo de teste é um passo crítico em direção à construção de agentes geralmente autoaperfeiçoantes que possam operar em linguagem natural de forma aberta. Neste artigo, estudamos a escalabilidade da computação no tempo de inferência em LLMs, com foco em responder à pergunta: se um LLM pode usar uma quantidade fixa, porém significativa, de computação no tempo de inferência, quanto ele pode melhorar seu desempenho em um prompt desafiador? Responder a essa pergunta tem implicações não apenas no desempenho alcançável dos LLMs, mas também no futuro do pré-treinamento de LLMs e como se deve equilibrar a computação no tempo de inferência e no pré-treinamento. Apesar de sua importância, pouca pesquisa tentou entender os comportamentos de escalabilidade de vários métodos de inferência no tempo de teste. Além disso, os trabalhos atuais em sua maioria fornecem resultados negativos para várias dessas estratégias. Neste trabalho, analisamos dois mecanismos principais para escalar a computação no tempo de teste: (1) busca em modelos de recompensa verificadores densos baseados em processos; e (2) atualização da distribuição do modelo sobre uma resposta de forma adaptativa, dada a solicitação no tempo de teste. Constatamos que, em ambos os casos, a eficácia de diferentes abordagens para escalar a computação no tempo de teste varia criticamente dependendo da dificuldade do prompt. Essa observação motiva a aplicação de uma estratégia de escalonamento "ótima em termos de computação", que atua para alocar de forma mais eficaz a computação no tempo de teste de forma adaptativa por prompt. Utilizando essa estratégia ótima em termos de computação, podemos melhorar a eficiência do escalonamento da computação no tempo de teste em mais de 4 vezes em comparação com uma linha de base de melhor-de-N. Além disso, em uma avaliação equiparada em FLOPs, constatamos que em problemas nos quais um modelo base menor alcança taxas de sucesso consideráveis, a computação no tempo de teste pode ser usada para superar um modelo 14 vezes maior.