Escalonamento de Computação em Tempo de Teste para Agentes de LLM
Scaling Test-time Compute for LLM Agents
June 15, 2025
Autores: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI
Resumo
A escalação do poder de computação durante o tempo de teste tem demonstrado sucesso notável na melhoria das habilidades de raciocínio de grandes modelos de linguagem (LLMs). Neste trabalho, realizamos a primeira exploração sistemática da aplicação de métodos de escalação no tempo de teste a agentes de linguagem e investigamos até que ponto isso melhora sua eficácia. Especificamente, exploramos diferentes estratégias de escalação no tempo de teste, incluindo: (1) algoritmos de amostragem paralela; (2) estratégias de revisão sequencial; (3) verificadores e métodos de fusão; (4) estratégias para diversificar execuções. Analisamos e abrimos cuidadosamente o impacto de diferentes estratégias de design na aplicação da escalação no tempo de teste em agentes de linguagem, e obtivemos as seguintes conclusões: 1. A escalação do poder de computação no tempo de teste pode melhorar o desempenho dos agentes. 2. Saber quando refletir é importante para os agentes. 3. Entre diferentes abordagens de verificação e fusão de resultados, o método baseado em lista apresenta o melhor desempenho. 4. Aumentar a diversificação das execuções exerce um efeito positivo no desempenho das tarefas do agente.
English
Scaling test time compute has shown remarkable success in improving the
reasoning abilities of large language models (LLMs). In this work, we conduct
the first systematic exploration of applying test-time scaling methods to
language agents and investigate the extent to which it improves their
effectiveness. Specifically, we explore different test-time scaling strategies,
including: (1) parallel sampling algorithms; (2) sequential revision
strategies; (3) verifiers and merging methods; (4)strategies for diversifying
rollouts.We carefully analyze and ablate the impact of different design
strategies on applying test-time scaling on language agents, and have follow
findings: 1. Scaling test time compute could improve the performance of agents.
2. Knowing when to reflect is important for agents. 3. Among different
verification and result merging approaches, the list-wise method performs best.
4. Increasing diversified rollouts exerts a positive effect on the agent's task
performance.