Agentische Aggregatie voor Parallelle Schaalvergroting van Langetermijn Agentische Taken

Samenvatting

Wij bestuderen parallelle test-time scaling voor langetermijn agent-taken zoals agent-gebaseerd zoeken en diepgaand onderzoek, waarbij meerdere rollouts parallel worden gegenereerd en geaggregeerd tot een eindantwoord. Hoewel dergelijke scaling effectief is gebleken voor chain-of-thought redenering, vormen agent-taken unieke uitdagingen: trajecten zijn lang, multi-turn en tool-augmented, en uitvoeren zijn vaak open-eindig. Alleen eindantwoorden aggregeren verwijdert rijke informatie uit trajecten, terwijl het aaneenschakelen van alle trajecten het contextvenster van het model overschrijdt. Om dit aan te pakken, stellen wij AggAgent voor, een aggregatie-agent die parallelle trajecten als een omgeving behandelt. Wij rusten het uit met lichtgewicht tools om kandidaat-oplossingen te inspecteren en over trajecten te zoeken, waardoor het in staat is om informatie naar behoefte te navigeren en te synthetiseren. Over zes benchmarks en drie modelfamilies (GLM-4.7, Qwen3.5, MiniMax-M2.5) presteert AggAgent beter dan alle bestaande aggregatiemethoden - met tot 5,3% absoluut gemiddeld en 10,3% op twee diepgaande onderzoektaken - terwijl het minimale overhead toevoegt, aangezien de aggregatiekosten beperkt blijven tot een enkele agent-rollout. Onze bevindingen vestigen agent-aggregatie als een effectieve en kostenefficiënte aanpak voor parallelle test-time scaling.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Agentische Aggregatie voor Parallelle Schaalvergroting van Langetermijn Agentische Taken

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Samenvatting

Support