Schaalbaarheid tijdens Inferentie voor Complexe Taken: Huidige Stand van Zaken en Toekomstperspectieven
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead
March 31, 2025
Auteurs: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI
Samenvatting
Inferentie-schaling kan de redeneervaardigheden van grote taalmodellen (LLMs) verbeteren bij complexe problemen die baat hebben bij stap-voor-stap oplossingen. Hoewel het verlengen van gegenereerde kladbladen effectief is gebleken voor wiskundige taken, is de bredere impact van deze aanpak op andere taken minder duidelijk. In dit werk onderzoeken we de voordelen en beperkingen van schalingsmethoden over negen state-of-the-art modellen en acht uitdagende taken, waaronder wiskunde en STEM-redenering, kalenderplanning, NP-moeilijke problemen, navigatie en ruimtelijk redeneren. We vergelijken conventionele modellen (bijv. GPT-4o) met modellen die zijn afgestemd op inferentie-schaling (bijv. o1) via evaluatieprotocollen die herhaalde modelaanroepen omvatten, zowel onafhankelijk als sequentieel met feedback. Deze evaluaties benaderen onder- en bovengrenzen van prestaties en het potentieel voor toekomstige prestatieverbeteringen voor elk model, ofwel door verbeterde training of multi-model inferentiesystemen. Onze uitgebreide empirische analyse toont aan dat de voordelen van inferentie-schaling variëren per taak en afnemen naarmate de probleemcomplexiteit toeneemt. Bovendien leidt het simpelweg gebruiken van meer tokens niet noodzakelijk tot hogere nauwkeurigheid in deze uitdagende regimes. Resultaten van meerdere onafhankelijke runs met conventionele modellen met perfecte verifiers laten zien dat, voor sommige taken, deze modellen prestaties kunnen bereiken die dicht in de buurt komen van de gemiddelde prestaties van de meest geavanceerde redeneermodellen van vandaag. Voor andere taken blijft echter een aanzienlijk prestatieverschil bestaan, zelfs in zeer hoge schalingsregimes. Bemoedigend is dat alle modellen aanzienlijke winsten laten zien wanneer de inferentie verder wordt geschaald met perfecte verifiers of sterke feedback, wat wijst op ruim potentieel voor toekomstige verbeteringen.
English
Inference-time scaling can enhance the reasoning capabilities of large
language models (LLMs) on complex problems that benefit from step-by-step
problem solving. Although lengthening generated scratchpads has proven
effective for mathematical tasks, the broader impact of this approach on other
tasks remains less clear. In this work, we investigate the benefits and
limitations of scaling methods across nine state-of-the-art models and eight
challenging tasks, including math and STEM reasoning, calendar planning,
NP-hard problems, navigation, and spatial reasoning. We compare conventional
models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g.,
o1) through evaluation protocols that involve repeated model calls, either
independently or sequentially with feedback. These evaluations approximate
lower and upper performance bounds and potential for future performance
improvements for each model, whether through enhanced training or multi-model
inference systems. Our extensive empirical analysis reveals that the advantages
of inference-time scaling vary across tasks and diminish as problem complexity
increases. In addition, simply using more tokens does not necessarily translate
to higher accuracy in these challenging regimes. Results from multiple
independent runs with conventional models using perfect verifiers show that,
for some tasks, these models can achieve performance close to the average
performance of today's most advanced reasoning models. However, for other
tasks, a significant performance gap remains, even in very high scaling
regimes. Encouragingly, all models demonstrate significant gains when inference
is further scaled with perfect verifiers or strong feedback, suggesting ample
potential for future improvements.Summary
AI-Generated Summary