Agregação Agência para Escalonamento Paralelo de Tarefas Agência de Longo Horizonte

Resumo

Estudamos a escalabilidade paralela em tempo de teste para tarefas agentivas de longo horizonte, como busca agentiva e pesquisa aprofundada, onde múltiplas execuções são geradas em paralelo e agregadas em uma resposta final. Embora essa escalabilidade tenha se mostrada eficaz para raciocínio em cadeia de pensamento, as tarefas agentivas apresentam desafios únicos: as trajetórias são longas, multi-turno e aumentadas por ferramentas, e as saídas são frequentemente abertas. Agregar apenas as respostas finais descarta informações ricas das trajetórias, enquanto concatenar todas as trajetórias excede a janela de contexto do modelo. Para resolver isso, propomos o AggAgent, um agente de agregação que trata as trajetórias paralelas como um ambiente. Nós o equipamos com ferramentas leves para inspecionar soluções candidotas e buscar entre trajetórias, permitindo que ele navegue e sintetize informações sob demanda. Em seis benchmarks e três famílias de modelos (GLM-4.7, Qwen3.5, MiniMax-M2.5), o AggAgent supera todos os métodos de agregação existentes – em até 5,3% absoluto na média e 10,3% em duas tarefas de pesquisa aprofundada – enquanto adiciona sobrecarga mínima, já que o custo de agregação permanece limitado ao de uma única execução agentiva. Nossos resultados estabelecem a agregação agentiva como uma abordagem eficaz e econômica para a escalabilidade paralela em tempo de teste.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Agregação Agência para Escalonamento Paralelo de Tarefas Agência de Longo Horizonte

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Resumo

Support