Escalonamento de Computação em Tempo de Teste para Agentes de LLM

Resumo

A escalação do poder de computação durante o tempo de teste tem demonstrado sucesso notável na melhoria das habilidades de raciocínio de grandes modelos de linguagem (LLMs). Neste trabalho, realizamos a primeira exploração sistemática da aplicação de métodos de escalação no tempo de teste a agentes de linguagem e investigamos até que ponto isso melhora sua eficácia. Especificamente, exploramos diferentes estratégias de escalação no tempo de teste, incluindo: (1) algoritmos de amostragem paralela; (2) estratégias de revisão sequencial; (3) verificadores e métodos de fusão; (4) estratégias para diversificar execuções. Analisamos e abrimos cuidadosamente o impacto de diferentes estratégias de design na aplicação da escalação no tempo de teste em agentes de linguagem, e obtivemos as seguintes conclusões: 1. A escalação do poder de computação no tempo de teste pode melhorar o desempenho dos agentes. 2. Saber quando refletir é importante para os agentes. 3. Entre diferentes abordagens de verificação e fusão de resultados, o método baseado em lista apresenta o melhor desempenho. 4. Aumentar a diversificação das execuções exerce um efeito positivo no desempenho das tarefas do agente.

English

Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.

Escalonamento de Computação em Tempo de Teste para Agentes de LLM

Scaling Test-time Compute for LLM Agents

Resumo

Support