ChatPaper.aiChatPaper

WideSeek-R1: 다중 에이전트 강화 학습을 통한 광범위 정보 탐색을 위한 너비 확장 탐구

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

February 4, 2026
저자: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI

초록

최근 대규모 언어 모델(LLM)의 발전은 주로 단일 에이전트가 다중 단계 추론과 도구 사용을 통해 장기적 문제를 해결하는 심화 확장에 집중되어 왔습니다. 그러나 과업의 범위가 넓어짐에 따라 핵심 병목 현상은 개별 역량에서 조직적 역량으로 이동하고 있습니다. 본 연구에서는 광범위한 정보 탐색을 해결하기 위해 다중 에이전트 시스템을 통한 보완적 차원인 폭 확장을 탐구합니다. 기존 다중 에이전트 시스템은 종종 수작업으로 설계된 워크플로우와 순차적 상호작용에 의존하여 작업을 효과적으로 병렬화하지 못합니다. 이러한 격차를 해결하기 위해 우리는 확장 가능한 오케스트레이션과 병렬 실행을 조화시키기 위해 다중 에이전트 강화 학습(MARL)을 통해 훈련된 주 에이전트-하위 에이전트 프레임워크인 WideSeek-R1을 제안합니다. 공유 LLM과 분리된 컨텍스트, 특화된 도구를 활용하여 WideSeek-R1은 20k개의 정제된 광범위 정보 탐색 과업 데이터셋에서 주 에이전트와 병렬 하위 에이전트를 공동으로 최적화합니다. 광범위한 실험 결과, WideSeek-R1-4B는 WideSearch 벤치마크에서 40.0%의 항목 F1 점수를 달성하며, 이는 단일 에이전트 DeepSeek-R1-671B의 성능에 버금가는 수준입니다. 더 나아가 WideSeek-R1-4B는 병렬 하위 에이전트 수가 증가함에 따라 일관된 성능 향상을 보여 폭 확장의 효과성을 입증합니다.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
PDF712February 6, 2026