ChatPaper.aiChatPaper

Quoi, Comment, Où, et Dans quelle mesure ? Une enquête sur la mise à l'échelle au moment du test dans les grands modèles de langage.

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

March 31, 2025
Auteurs: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI

Résumé

Alors que l'enthousiasme pour l'augmentation de la puissance de calcul (données et paramètres) à l'ère du pré-entraînement s'est progressivement atténué, le scaling au moment du test (TTS), également appelé « calcul au moment du test », est devenu un axe de recherche majeur. Des études récentes montrent que le TTS peut encore améliorer les capacités de résolution de problèmes des grands modèles de langage (LLMs), permettant des avancées significatives non seulement dans des tâches de raisonnement spécialisées, comme les mathématiques et la programmation, mais aussi dans des tâches générales telles que les questions-réponses ouvertes. Cependant, malgré l'explosion récente des efforts dans ce domaine, il reste un besoin urgent d'une étude complète offrant une compréhension systémique. Pour combler cette lacune, nous proposons un cadre unifié et multidimensionnel structuré autour de quatre dimensions clés de la recherche sur le TTS : quoi scaler, comment scaler, où scaler, et dans quelle mesure scaler. Sur la base de cette taxonomie, nous menons une revue approfondie des méthodes, des scénarios d'application et des aspects d'évaluation, et présentons une décomposition organisée qui met en lumière les rôles fonctionnels uniques des techniques individuelles dans le paysage plus large du TTS. À partir de cette analyse, nous dégageons les principales trajectoires de développement du TTS à ce jour et proposons des directives pratiques pour le déploiement. En outre, nous identifions plusieurs défis ouverts et offrons des perspectives sur des directions futures prometteuses, notamment un scaling accru, la clarification de l'essence fonctionnelle des techniques, la généralisation à davantage de tâches, et plus d'attributions.
English
As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.
PDF542April 1, 2025