Agrégation Agentique pour la Mise à l'Échelle Parallèle des Tâches Agentiques à Long Horizon

Résumé

Nous étudions le passage à l'échelle parallèle au moment des tests pour les tâches agentiques de long horizon, telles que la recherche agentique et la recherche approfondie, où plusieurs déploiements sont générés en parallèle et agrégés en une réponse finale. Bien que cette mise à l'échelle se soit avérée efficace pour le raisonnement par chaîne de pensée, les tâches agentiques présentent des défis uniques : les trajectoires sont longues, multi-tours et enrichies par des outils, et les résultats sont souvent ouverts. Agréger uniquement les réponses finales revient à ignorer les informations riches des trajectoires, tandis que concaténer toutes les trajectoires dépasse la fenêtre de contexte du modèle. Pour résoudre ce problème, nous proposons AggAgent, un agent d'agrégation qui traite les trajectoires parallèles comme un environnement. Nous le dotons d'outils légers pour inspecter les solutions candidates et effectuer des recherches à travers les trajectoires, lui permettant de naviguer et de synthétiser l'information à la demande. Sur six benchmarks et trois familles de modèles (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent surpasse toutes les méthodes d'agrégation existantes – jusqu'à 5,3 % en valeur absolue en moyenne et 10,3 % sur deux tâches de recherche approfondie – tout en ajoutant une surcharge minimale, car le coût d'agrégation reste borné par un seul déploiement agentique. Nos résultats établissent l'agrégation agentique comme une approche efficace et économique pour le passage à l'échelle parallèle au moment des tests.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Agrégation Agentique pour la Mise à l'Échelle Parallèle des Tâches Agentiques à Long Horizon

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Résumé

Support