Optimiser de manière optimale le calcul au moment des tests pour les LLM peut s'avérer plus efficace que l'augmentation des paramètres du modèle.Scaling LLM Test-Time Compute Optimally can be More Effective than
Scaling Model Parameters
Permettre aux LLM d'améliorer leurs sorties en utilisant davantage de calcul au moment du test constitue une étape cruciale vers la construction d'agents capables de s'améliorer de manière générale et d'opérer sur du langage naturel ouvert. Dans cet article, nous étudions la mise à l'échelle du calcul au moment de l'inférence dans les LLM, en nous concentrant sur la question suivante : si un LLM est autorisé à utiliser une quantité fixe mais non négligeable de calcul au moment de l'inférence, dans quelle mesure peut-il améliorer ses performances sur une tâche complexe ? Répondre à cette question a des implications non seulement sur les performances réalisables des LLM, mais aussi sur l'avenir du pré-entraînement des LLM et sur la manière dont il faut équilibrer le calcul au moment de l'inférence et celui du pré-entraînement. Malgré son importance, peu de recherches ont tenté de comprendre les comportements de mise à l'échelle de diverses méthodes d'inférence au moment du test. De plus, les travaux actuels fournissent largement des résultats négatifs pour un certain nombre de ces stratégies. Dans ce travail, nous analysons deux mécanismes principaux pour mettre à l'échelle le calcul au moment du test : (1) la recherche contre des modèles de récompense vérificateurs denses et basés sur des processus ; et (2) la mise à jour adaptative de la distribution du modèle sur une réponse, en fonction de la tâche au moment du test. Nous constatons que dans les deux cas, l'efficacité des différentes approches pour mettre à l'échelle le calcul au moment du test varie de manière critique en fonction de la difficulté de la tâche. Cette observation motive l'application d'une stratégie de mise à l'échelle "optimale en termes de calcul", qui vise à allouer de manière la plus efficace le calcul au moment du test de manière adaptative par tâche. En utilisant cette stratégie optimale en termes de calcul, nous pouvons améliorer l'efficacité de la mise à l'échelle du calcul au moment du test de plus de 4 fois par rapport à une base de référence de type "best-of-N". De plus, dans une évaluation équivalente en termes de FLOPs, nous constatons que sur des problèmes où un modèle de base plus petit atteint des taux de succès quelque peu non négligeables, le calcul au moment du test peut être utilisé pour surpasser un modèle 14 fois plus grand.