ChatPaper.aiChatPaper

Wat, Hoe, Waar en Hoe Goed? Een Onderzoek naar Schaling tijdens Testtijd in Grote Taalmodellen

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

March 31, 2025
Auteurs: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI

Samenvatting

Toen het enthousiasme voor het opschalen van rekenkracht (data en parameters) in het pretraining-tijdperk geleidelijk afnam, is test-time scaling (TTS), ook wel aangeduid als "test-time computing", naar voren gekomen als een prominent onderzoeksfocus. Recente studies tonen aan dat TTS de probleemoplossende capaciteiten van grote taalmodellen (LLMs) verder kan ontlokken, wat niet alleen leidt tot significante doorbraken in gespecialiseerde redeneertaken, zoals wiskunde en programmeren, maar ook in algemene taken zoals open-einde Q&A. Ondanks de explosie van recente inspanningen op dit gebied, blijft er echter een dringende behoefte aan een uitgebreid overzicht dat een systemisch begrip biedt. Om deze leemte te vullen, stellen we een uniform, multidimensionaal framework voor, gestructureerd langs vier kern dimensies van TTS-onderzoek: wat op te schalen, hoe op te schalen, waar op te schalen en hoe goed op te schalen. Op basis van deze taxonomie voeren we een uitgebreide review uit van methoden, toepassingsscenario's en beoordelingsaspecten, en presenteren we een georganiseerde ontleding die de unieke functionele rollen van individuele technieken binnen het bredere TTS-landschap benadrukt. Uit deze analyse destilleren we de belangrijkste ontwikkelingslijnen van TTS tot nu toe en bieden we praktische richtlijnen voor implementatie. Bovendien identificeren we verschillende open uitdagingen en bieden we inzichten in veelbelovende toekomstige richtingen, waaronder verder opschalen, het verhelderen van de functionele essentie van technieken, generaliseren naar meer taken en meer attributies.
English
As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.

Summary

AI-Generated Summary

PDF532April 1, 2025