Agregación Agéntica para la Escalabilidad Paralela de Tareas Agénticas de Largo Horizonte

Resumen

Estudiamos el escalado paralelo en tiempo de prueba para tareas agentales de horizonte largo, como búsqueda agental e investigación profunda, donde se generan múltiples ejecuciones en paralelo que se agregan en una respuesta final. Si bien este escalado ha demostrado ser efectivo para el razonamiento de cadena de pensamiento, las tareas agentales presentan desafíos únicos: las trayectorias son largas, multiturno y aumentadas con herramientas, y las salidas suelen ser de naturaleza abierta. Agregar solo las respuestas finales descarta información valiosa de las trayectorias, mientras que concatenar todas las trayectorias excede la ventana de contexto del modelo. Para abordar esto, proponemos AggAgent, un agente de agregación que trata las trayectorias paralelas como un entorno. Lo equipamos con herramientas ligeras para inspeccionar soluciones candidatas y buscar entre trayectorias, permitiéndole navegar y sintetizar información bajo demanda. En seis benchmarks y tres familias de modelos (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent supera a todos los métodos de agregación existentes—hasta en un 5.3% absoluto en promedio y un 10.3% en dos tareas de investigación profunda—mientras añade una sobrecarga mínima, ya que el coste de agregación permanece acotado por una sola ejecución agental. Nuestros hallazgos establecen la agregación agental como un enfoque efectivo y eficiente en costes para el escalado paralelo en tiempo de prueba.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Agregación Agéntica para la Escalabilidad Paralela de Tareas Agénticas de Largo Horizonte

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Resumen

Support