Agentische Aggregation zur parallelen Skalierung langfristiger agentenbasierter Aufgaben

Zusammenfassung

Wir untersuchen paralleles Test-Time-Scaling für langfristige agentenbasierte Aufgaben wie agentenbasiertes Suchen und tiefgehende Recherche, bei denen mehrere Rollouts parallel generiert und zu einer endgültigen Antwort aggregiert werden. Während sich solche Skalierung für Chain-of-Thought-Reasoning als effektiv erwiesen hat, stellen agentenbasierte Aufgaben einzigartige Herausforderungen dar: Trajektorien sind lang, mehrstufig und werkzeuggestützt, und Ausgaben sind oft offen. Die reine Aggregation endgültiger Antworten verwirft wertvolle Informationen aus den Trajektorien, während die Verkettung aller Trajektorien den Kontextfenster des Modells überschreitet. Um dies zu adressieren, schlagen wir AggAgent vor, einen Aggregationsagenten, der parallele Trajektorien als Umgebung behandelt. Wir statten ihn mit leichtgewichtigen Werkzeugen aus, um Kandidatenlösungen zu prüfen und über Trajektorien zu suchen, was ihm ermöglicht, Informationen bedarfsgerecht zu navigieren und zu synthetisieren. Über sechs Benchmarks und drei Modellfamilien hinweg (GLM-4.7, Qwen3.5, MiniMax-M2.5) übertrifft AggAgent alle bestehenden Aggregationsmethoden – um bis zu 5,3 % absolut im Durchschnitt und 10,3 % bei zwei tiefgehenden Rechercheaufgaben – bei minimalem Mehraufwand, da die Aggregationskosten durch einen einzelnen agentenbasierten Rollout begrenzt bleiben. Unsere Ergebnisse etablieren agentenbasierte Aggregation als effektiven und kosteneffizienten Ansatz für paralleles Test-Time-Scaling.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Agentische Aggregation zur parallelen Skalierung langfristiger agentenbasierter Aufgaben

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Zusammenfassung

Support