Mise à l'échelle au moment de l'inférence pour les tâches complexes : État des lieux et perspectives futures
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead
March 31, 2025
Auteurs: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI
Résumé
La mise à l'échelle au moment de l'inférence peut améliorer les capacités de raisonnement des grands modèles de langage (LLMs) sur des problèmes complexes qui bénéficient d'une résolution étape par étape. Bien que l'allongement des brouillons générés se soit avéré efficace pour les tâches mathématiques, l'impact plus large de cette approche sur d'autres tâches reste moins clair. Dans ce travail, nous étudions les avantages et les limites des méthodes de mise à l'échelle à travers neuf modèles de pointe et huit tâches difficiles, incluant le raisonnement mathématique et STEM, la planification de calendrier, les problèmes NP-difficiles, la navigation et le raisonnement spatial. Nous comparons des modèles conventionnels (par exemple, GPT-4o) avec des modèles affinés pour la mise à l'échelle au moment de l'inférence (par exemple, o1) à travers des protocoles d'évaluation qui impliquent des appels répétés au modèle, soit de manière indépendante, soit séquentiellement avec retour d'information. Ces évaluations approchent les limites inférieures et supérieures de performance ainsi que le potentiel d'amélioration future pour chaque modèle, que ce soit par un entraînement amélioré ou des systèmes d'inférence multi-modèles. Notre analyse empirique approfondie révèle que les avantages de la mise à l'échelle au moment de l'inférence varient selon les tâches et diminuent à mesure que la complexité des problèmes augmente. De plus, l'utilisation de plus de tokens ne se traduit pas nécessairement par une précision accrue dans ces régimes difficiles. Les résultats de plusieurs exécutions indépendantes avec des modèles conventionnels utilisant des vérificateurs parfaits montrent que, pour certaines tâches, ces modèles peuvent atteindre des performances proches de la performance moyenne des modèles de raisonnement les plus avancés d'aujourd'hui. Cependant, pour d'autres tâches, un écart de performance significatif persiste, même dans des régimes de mise à l'échelle très élevés. De manière encourageante, tous les modèles montrent des gains significatifs lorsque l'inférence est davantage mise à l'échelle avec des vérificateurs parfaits ou des retours d'information forts, suggérant un potentiel important pour des améliorations futures.
English
Inference-time scaling can enhance the reasoning capabilities of large
language models (LLMs) on complex problems that benefit from step-by-step
problem solving. Although lengthening generated scratchpads has proven
effective for mathematical tasks, the broader impact of this approach on other
tasks remains less clear. In this work, we investigate the benefits and
limitations of scaling methods across nine state-of-the-art models and eight
challenging tasks, including math and STEM reasoning, calendar planning,
NP-hard problems, navigation, and spatial reasoning. We compare conventional
models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g.,
o1) through evaluation protocols that involve repeated model calls, either
independently or sequentially with feedback. These evaluations approximate
lower and upper performance bounds and potential for future performance
improvements for each model, whether through enhanced training or multi-model
inference systems. Our extensive empirical analysis reveals that the advantages
of inference-time scaling vary across tasks and diminish as problem complexity
increases. In addition, simply using more tokens does not necessarily translate
to higher accuracy in these challenging regimes. Results from multiple
independent runs with conventional models using perfect verifiers show that,
for some tasks, these models can achieve performance close to the average
performance of today's most advanced reasoning models. However, for other
tasks, a significant performance gap remains, even in very high scaling
regimes. Encouragingly, all models demonstrate significant gains when inference
is further scaled with perfect verifiers or strong feedback, suggesting ample
potential for future improvements.Summary
AI-Generated Summary