Escalado del Cómputo en Tiempo de Prueba para Agentes de Modelos de Lenguaje de Gran Escala
Scaling Test-time Compute for LLM Agents
June 15, 2025
Autores: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI
Resumen
El escalado del cómputo en tiempo de prueba ha demostrado un éxito notable en la mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En este trabajo, llevamos a cabo la primera exploración sistemática de la aplicación de métodos de escalado en tiempo de prueba a agentes de lenguaje e investigamos hasta qué punto mejora su efectividad. Específicamente, exploramos diferentes estrategias de escalado en tiempo de prueba, incluyendo: (1) algoritmos de muestreo paralelo; (2) estrategias de revisión secuencial; (3) verificadores y métodos de fusión; (4) estrategias para diversificar las ejecuciones. Analizamos y aislamos cuidadosamente el impacto de diferentes estrategias de diseño en la aplicación del escalado en tiempo de prueba a agentes de lenguaje, y obtenemos los siguientes hallazgos: 1. El escalado del cómputo en tiempo de prueba puede mejorar el rendimiento de los agentes. 2. Saber cuándo reflexionar es importante para los agentes. 3. Entre los diferentes enfoques de verificación y fusión de resultados, el método basado en listas es el que mejor desempeño tiene. 4. Aumentar la diversificación de las ejecuciones ejerce un efecto positivo en el desempeño de las tareas del agente.
English
Scaling test time compute has shown remarkable success in improving the
reasoning abilities of large language models (LLMs). In this work, we conduct
the first systematic exploration of applying test-time scaling methods to
language agents and investigate the extent to which it improves their
effectiveness. Specifically, we explore different test-time scaling strategies,
including: (1) parallel sampling algorithms; (2) sequential revision
strategies; (3) verifiers and merging methods; (4)strategies for diversifying
rollouts.We carefully analyze and ablate the impact of different design
strategies on applying test-time scaling on language agents, and have follow
findings: 1. Scaling test time compute could improve the performance of agents.
2. Knowing when to reflect is important for agents. 3. Among different
verification and result merging approaches, the list-wise method performs best.
4. Increasing diversified rollouts exerts a positive effect on the agent's task
performance.