Aggregazione Agente per il Ridimensionamento Parallelo di Attività Agenti a Lungo Orizzonte

Abstract

Studiamo lo scaling parallelo al momento del test per compiti agentici a lungo orizzonte, come la ricerca agentica e la ricerca approfondita, in cui vengono generate multiple rollout in parallelo e aggregate in una risposta finale. Sebbene tale scaling si sia rivelato efficace per il ragionamento a catena di pensiero, i compiti agentici pongono sfide uniche: le traiettorie sono lunghe, multi-turno e potenziate da strumenti, e gli output sono spesso aperti. Aggregare solo le risposte finali scarta informazioni preziose dalle traiettorie, mentre concatenare tutte le traiettorie supera la finestra contestuale del modello. Per affrontare ciò, proponiamo AggAgent, un agente di aggregazione che tratta le traiettorie parallele come un ambiente. Lo dotiamo di strumenti leggeri per ispezionare le soluzioni candidate e cercare attraverso le traiettorie, consentendogli di navigare e sintetizzare le informazioni on-demand. Su sei benchmark e tre famiglie di modelli (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent supera tutti i metodi di aggregazione esistenti—fino al 5,3% assoluto in media e al 10,3% su due compiti di ricerca approfondita—aggiungendo un sovraccarico minimo, poiché il costo di aggregazione rimane limitato a una singola rollout agentica. I nostri risultati stabiliscono l'aggregazione agentica come un approccio efficace e conveniente allo scaling parallelo al momento del test.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Aggregazione Agente per il Ridimensionamento Parallelo di Attività Agenti a Lungo Orizzonte

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Abstract

Support