Escalado del Cómputo en Tiempo de Prueba para Agentes de Modelos de Lenguaje de Gran Escala

Resumen

El escalado del cómputo en tiempo de prueba ha demostrado un éxito notable en la mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En este trabajo, llevamos a cabo la primera exploración sistemática de la aplicación de métodos de escalado en tiempo de prueba a agentes de lenguaje e investigamos hasta qué punto mejora su efectividad. Específicamente, exploramos diferentes estrategias de escalado en tiempo de prueba, incluyendo: (1) algoritmos de muestreo paralelo; (2) estrategias de revisión secuencial; (3) verificadores y métodos de fusión; (4) estrategias para diversificar las ejecuciones. Analizamos y aislamos cuidadosamente el impacto de diferentes estrategias de diseño en la aplicación del escalado en tiempo de prueba a agentes de lenguaje, y obtenemos los siguientes hallazgos: 1. El escalado del cómputo en tiempo de prueba puede mejorar el rendimiento de los agentes. 2. Saber cuándo reflexionar es importante para los agentes. 3. Entre los diferentes enfoques de verificación y fusión de resultados, el método basado en listas es el que mejor desempeño tiene. 4. Aumentar la diversificación de las ejecuciones ejerce un efecto positivo en el desempeño de las tareas del agente.

English

Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.

Escalado del Cómputo en Tiempo de Prueba para Agentes de Modelos de Lenguaje de Gran Escala

Scaling Test-time Compute for LLM Agents

Resumen

Support