Het optimaal schalen van de rekenkracht tijdens het testen van LLM's kan effectiever zijn dan het schalen van modelparameters.

Samenvatting

Het mogelijk maken voor LLMs om hun outputs te verbeteren door meer rekentijd tijdens het testen te gebruiken, is een cruciale stap naar het bouwen van algemeen zelfverbeterende agents die kunnen opereren in open-einde natuurlijke taal. In dit artikel bestuderen we de schaalbaarheid van rekentijd tijdens de inferentie in LLMs, met de focus op het beantwoorden van de vraag: als een LLM een vast maar niet-triviaal hoeveelheid rekentijd tijdens de inferentie mag gebruiken, hoeveel kan het dan zijn prestaties op een uitdagende prompt verbeteren? Het beantwoorden van deze vraag heeft implicaties niet alleen op de haalbare prestaties van LLMs, maar ook op de toekomst van LLM-pre-training en hoe men rekentijd tijdens de inferentie en pre-training moet afwegen. Ondanks het belang ervan, is er weinig onderzoek gedaan om de schaalbaarheidsgedragingen van verschillende inferentiemethoden tijdens het testen te begrijpen. Bovendien biedt het huidige werk grotendeels negatieve resultaten voor een aantal van deze strategieën. In dit werk analyseren we twee primaire mechanismen om rekentijd tijdens het testen te schalen: (1) zoeken tegen dichte, procesgebaseerde verifiërende beloningsmodellen; en (2) het adaptief updaten van de verdeling van het model over een respons, gegeven de prompt tijdens het testen. We vinden dat in beide gevallen de effectiviteit van verschillende benaderingen om rekentijd tijdens het testen te schalen kritisch varieert afhankelijk van de moeilijkheidsgraad van de prompt. Deze observatie motiveert het toepassen van een "rekentijd-optimale" schaalstrategie, die erop gericht is om rekentijd tijdens het testen het meest effectief adaptief per prompt toe te wijzen. Door deze rekentijd-optimale strategie te gebruiken, kunnen we de efficiëntie van het schalen van rekentijd tijdens het testen met meer dan 4x verbeteren in vergelijking met een best-of-N baseline. Daarnaast vinden we in een FLOPs-gelijke evaluatie dat op problemen waar een kleiner basismodel enigszins niet-triviale succespercentages behaalt, rekentijd tijdens het testen gebruikt kan worden om een 14x groter model te overtreffen.

English

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.

Het optimaal schalen van de rekenkracht tijdens het testen van LLM's kan effectiever zijn dan het schalen van modelparameters.

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Samenvatting

Support