Ottimizzare il calcolo al momento del test per i modelli linguistici su larga scala può essere più efficace rispetto al ridimensionamento dei parametri del modello.
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
August 6, 2024
Autori: Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar
cs.AI
Abstract
Consentire ai modelli linguistici di grandi dimensioni (LLM) di migliorare i propri output utilizzando un maggiore calcolo al momento del test rappresenta un passo cruciale verso la creazione di agenti generalmente auto-miglioranti in grado di operare su linguaggio naturale aperto. In questo articolo, studiamo il ridimensionamento del calcolo durante l'inferenza negli LLM, concentrandoci sulla risposta alla domanda: se a un LLM è consentito utilizzare una quantità fissa ma non banale di calcolo durante l'inferenza, quanto può migliorare le sue prestazioni su un prompt impegnativo? Rispondere a questa domanda ha implicazioni non solo sulle prestazioni raggiungibili degli LLM, ma anche sul futuro del pre-addestramento degli LLM e su come bilanciare il calcolo durante l'inferenza e il pre-addestramento. Nonostante la sua importanza, poche ricerche hanno tentato di comprendere i comportamenti di ridimensionamento di vari metodi di inferenza al momento del test. Inoltre, il lavoro attuale fornisce principalmente risultati negativi per diverse di queste strategie. In questo lavoro, analizziamo due meccanismi principali per ridimensionare il calcolo al momento del test: (1) la ricerca contro modelli di ricompensa basati su processi densi; e (2) l'aggiornamento adattivo della distribuzione del modello su una risposta, dato il prompt al momento del test. Scopriamo che in entrambi i casi, l'efficacia di diversi approcci al ridimensionamento del calcolo al momento del test varia in modo critico a seconda della difficoltà del prompt. Questa osservazione motiva l'applicazione di una strategia di ridimensionamento "ottimale per il calcolo", che agisce per allocare in modo più efficace il calcolo al momento del test in modo adattivo per ogni prompt. Utilizzando questa strategia ottimale per il calcolo, possiamo migliorare l'efficienza del ridimensionamento del calcolo al momento del test di oltre 4 volte rispetto a una baseline best-of-N. Inoltre, in una valutazione con FLOPs equivalenti, scopriamo che su problemi in cui un modello base più piccolo raggiunge tassi di successo non banali, il calcolo al momento del test può essere utilizzato per superare un modello 14 volte più grande.
English
Enabling LLMs to improve their outputs by using more test-time computation is
a critical step towards building generally self-improving agents that can
operate on open-ended natural language. In this paper, we study the scaling of
inference-time computation in LLMs, with a focus on answering the question: if
an LLM is allowed to use a fixed but non-trivial amount of inference-time
compute, how much can it improve its performance on a challenging prompt?
Answering this question has implications not only on the achievable performance
of LLMs, but also on the future of LLM pretraining and how one should tradeoff
inference-time and pre-training compute. Despite its importance, little
research attempted to understand the scaling behaviors of various test-time
inference methods. Moreover, current work largely provides negative results for
a number of these strategies. In this work, we analyze two primary mechanisms
to scale test-time computation: (1) searching against dense, process-based
verifier reward models; and (2) updating the model's distribution over a
response adaptively, given the prompt at test time. We find that in both cases,
the effectiveness of different approaches to scaling test-time compute
critically varies depending on the difficulty of the prompt. This observation
motivates applying a "compute-optimal" scaling strategy, which acts to most
effectively allocate test-time compute adaptively per prompt. Using this
compute-optimal strategy, we can improve the efficiency of test-time compute
scaling by more than 4x compared to a best-of-N baseline. Additionally, in a
FLOPs-matched evaluation, we find that on problems where a smaller base model
attains somewhat non-trivial success rates, test-time compute can be used to
outperform a 14x larger model.