ChatPaper.aiChatPaper

장기적 에이전트 작업의 병렬 확장을 위한 에이전트 집계

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

April 13, 2026
저자: Yoonsang Lee, Howard Yen, Xi Ye, Danqi Chen
cs.AI

초록

우리는 에이전트 기반 검색 및 심층 연구와 같은 장기적 에이전트 작업을 위한 병렬 테스트 시간 스케일링을 연구합니다. 이 접근법에서는 여러 롤아웃을 병렬로 생성하고 최종 응답으로 집계합니다. 이러한 스케일링이 사고 사슬 추론에서는 효과적임이 입증되었지만, 에이전트 작업은 고유한 과제를 제기합니다: 궤적은 길고 다중 턴이며 도구가 보강되어 있으며, 출력은 종종 개방형입니다. 최종 답변만 집계하면 궤적의 풍부한 정보가 손실되고, 모든 궤적을 연결하면 모델의 컨텍스트 창을 초과합니다. 이를 해결하기 위해 병렬 궤적을 환경으로 취급하는 집계 에이전트인 AggAgent를 제안합니다. 우리는 후보 솔루션을 검사하고 궤적 간을 검색할 수 있는 경량 도구를 장착하여 필요에 따라 정보를 탐색하고 종합할 수 있도록 합니다. 6개의 벤치마크와 3개의 모델 패밀리(GLM-4.7, Qwen3.5, MiniMax-M2.5)에서 AggAgent는 모든 기존 집계 방법을 능가했습니다(평균 최대 5.3% 절대적 향상, 두 심층 연구 작업에서 10.3% 향상). 집계 비용이 단일 에이전트 롤아웃으로 제한되므로 오버헤드는 최소화됩니다. 우리의 연구 결과는 에이전트 집계가 병렬 테스트 시간 스케일링에 효과적이고 비용 효율적인 접근법임을 입증합니다.
English
We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.
PDF101April 15, 2026