ChatPaper.aiChatPaper

O quê, Como, Onde e Quão Bem? Uma Pesquisa sobre Escalonamento em Tempo de Teste em Modelos de Linguagem de Grande Escala

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

March 31, 2025
Autores: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI

Resumo

À medida que o entusiasmo pelo escalonamento de computação (dados e parâmetros) na era de pré-treinamento gradualmente diminuiu, o escalonamento em tempo de teste (TTS), também referido como "computação em tempo de teste", emergiu como um foco de pesquisa proeminente. Estudos recentes demonstram que o TTS pode aprimorar ainda mais as capacidades de resolução de problemas de grandes modelos de linguagem (LLMs), permitindo avanços significativos não apenas em tarefas especializadas de raciocínio, como matemática e codificação, mas também em tarefas gerais, como perguntas e respostas abertas. No entanto, apesar da explosão de esforços recentes nessa área, ainda há uma necessidade urgente de uma pesquisa abrangente que ofereça um entendimento sistêmico. Para preencher essa lacuna, propomos uma estrutura unificada e multidimensional organizada em torno de quatro dimensões centrais da pesquisa em TTS: o que escalonar, como escalonar, onde escalonar e quão bem escalonar. Com base nessa taxonomia, realizamos uma revisão extensa de métodos, cenários de aplicação e aspectos de avaliação, e apresentamos uma decomposição organizada que destaca os papéis funcionais únicos de técnicas individuais dentro do panorama mais amplo do TTS. A partir dessa análise, destilamos as principais trajetórias de desenvolvimento do TTS até o momento e oferecemos diretrizes práticas para implantação. Além disso, identificamos vários desafios em aberto e oferecemos insights sobre direções futuras promissoras, incluindo maior escalonamento, esclarecimento da essência funcional das técnicas, generalização para mais tarefas e mais atribuições.
English
As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.

Summary

AI-Generated Summary

PDF532April 1, 2025