ChatPaper.aiChatPaper

무엇, 어떻게, 어디서, 그리고 얼마나 잘? 대규모 언어 모델에서의 테스트 시간 스케일링에 대한 조사

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

March 31, 2025
저자: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI

초록

사전 학습 시대에서 계산(데이터와 파라미터) 확장에 대한 열기가 점차 줄어들면서, 테스트 시간 확장(TTS, Test-Time Scaling) 또는 "테스트 시간 컴퓨팅"이라 불리는 연구 분야가 주요 관심사로 부상하고 있다. 최근 연구들은 TTS가 대규모 언어 모델(LLM)의 문제 해결 능력을 더욱 끌어내어, 수학 및 코딩과 같은 전문적인 추론 작업뿐만 아니라 개방형 질의응답과 같은 일반적인 작업에서도 중대한 돌파구를 마련할 수 있음을 보여주고 있다. 그러나 이 분야에서 최근의 노력이 폭발적으로 증가했음에도 불구하고, 체계적인 이해를 제공하는 포괄적인 조사가 시급히 필요한 상황이다. 이러한 공백을 메우기 위해, 우리는 TTS 연구의 네 가지 핵심 차원(무엇을 확장할 것인가, 어떻게 확장할 것인가, 어디에서 확장할 것인가, 얼마나 잘 확장할 것인가)을 기반으로 한 통합적이고 다차원적인 프레임워크를 제안한다. 이 분류 체계를 바탕으로, 우리는 방법론, 적용 시나리오, 평가 측면에 대한 광범위한 리뷰를 수행하고, 더 넓은 TTS 환경에서 개별 기술의 독특한 기능적 역할을 강조하는 체계적인 분해를 제시한다. 이 분석을 통해, 우리는 현재까지의 TTS 주요 발전 궤적을 도출하고 실질적인 배포를 위한 실용적인 가이드라인을 제공한다. 더 나아가, 우리는 몇 가지 열린 과제를 식별하고, 추가 확장, 기술의 기능적 본질 명확화, 더 많은 작업으로의 일반화, 그리고 더 많은 속성 분석을 포함한 유망한 미래 방향에 대한 통찰을 제시한다.
English
As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.

Summary

AI-Generated Summary

PDF532April 1, 2025