Optimiser de manière optimale le calcul au moment des tests pour les LLM peut s'avérer plus efficace que l'augmentation des paramètres du modèle.

papers.abstract

Permettre aux LLM d'améliorer leurs sorties en utilisant davantage de calcul au moment du test constitue une étape cruciale vers la construction d'agents capables de s'améliorer de manière générale et d'opérer sur du langage naturel ouvert. Dans cet article, nous étudions la mise à l'échelle du calcul au moment de l'inférence dans les LLM, en nous concentrant sur la question suivante : si un LLM est autorisé à utiliser une quantité fixe mais non négligeable de calcul au moment de l'inférence, dans quelle mesure peut-il améliorer ses performances sur une tâche complexe ? Répondre à cette question a des implications non seulement sur les performances réalisables des LLM, mais aussi sur l'avenir du pré-entraînement des LLM et sur la manière dont il faut équilibrer le calcul au moment de l'inférence et celui du pré-entraînement. Malgré son importance, peu de recherches ont tenté de comprendre les comportements de mise à l'échelle de diverses méthodes d'inférence au moment du test. De plus, les travaux actuels fournissent largement des résultats négatifs pour un certain nombre de ces stratégies. Dans ce travail, nous analysons deux mécanismes principaux pour mettre à l'échelle le calcul au moment du test : (1) la recherche contre des modèles de récompense vérificateurs denses et basés sur des processus ; et (2) la mise à jour adaptative de la distribution du modèle sur une réponse, en fonction de la tâche au moment du test. Nous constatons que dans les deux cas, l'efficacité des différentes approches pour mettre à l'échelle le calcul au moment du test varie de manière critique en fonction de la difficulté de la tâche. Cette observation motive l'application d'une stratégie de mise à l'échelle "optimale en termes de calcul", qui vise à allouer de manière la plus efficace le calcul au moment du test de manière adaptative par tâche. En utilisant cette stratégie optimale en termes de calcul, nous pouvons améliorer l'efficacité de la mise à l'échelle du calcul au moment du test de plus de 4 fois par rapport à une base de référence de type "best-of-N". De plus, dans une évaluation équivalente en termes de FLOPs, nous constatons que sur des problèmes où un modèle de base plus petit atteint des taux de succès quelque peu non négligeables, le calcul au moment du test peut être utilisé pour surpasser un modèle 14 fois plus grand.

English

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.

Optimiser de manière optimale le calcul au moment des tests pour les LLM peut s'avérer plus efficace que l'augmentation des paramètres du modèle.

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

papers.abstract

Support