ChatPaper.aiChatPaper

Что, Как, Где и Насколько Хорошо? Обзор методов масштабирования во время тестирования в больших языковых моделях

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

March 31, 2025
Авторы: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI

Аннотация

По мере того как энтузиазм в отношении масштабирования вычислений (данных и параметров) в эпоху предварительного обучения постепенно угасал, масштабирование на этапе тестирования (TTS), также называемое «вычислениями на этапе тестирования», стало важным направлением исследований. Недавние исследования показывают, что TTS может дополнительно раскрыть способности крупных языковых моделей (LLM) к решению задач, обеспечивая значительные прорывы не только в специализированных задачах, таких как математика и программирование, но и в общих задачах, таких как открытые вопросы и ответы. Однако, несмотря на всплеск усилий в этой области, остается острая необходимость в комплексном обзоре, предлагающем системное понимание. Чтобы заполнить этот пробел, мы предлагаем унифицированную многомерную структуру, организованную вокруг четырех ключевых аспектов исследований TTS: что масштабировать, как масштабировать, где масштабировать и насколько хорошо масштабировать. Основываясь на этой таксономии, мы проводим обширный обзор методов, сценариев применения и аспектов оценки, а также представляем организованную декомпозицию, которая подчеркивает уникальные функциональные роли отдельных техник в рамках более широкого ландшафта TTS. На основе этого анализа мы выделяем основные траектории развития TTS на сегодняшний день и предлагаем практические рекомендации для внедрения. Кроме того, мы определяем несколько открытых проблем и предлагаем взгляды на перспективные направления будущих исследований, включая дальнейшее масштабирование, уточнение функциональной сути техник, обобщение на большее количество задач и более детальное объяснение атрибуции.
English
As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.

Summary

AI-Generated Summary

PDF532April 1, 2025