ChatPaper.aiChatPaper

WideSeek-R1:マルチエージェント強化学習による広範な情報探索のための幅方向スケーリングの探求

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

February 4, 2026
著者: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI

要旨

大規模言語モデル(LLM)の最近の進歩は、単一エージェントがマルチターン推論とツール利用によって長期的な問題を解決する「深度スケーリング」に主眼が置かれてきた。しかし、タスクが広範化するにつれ、主要なボトルネックは個々の能力から組織的な能力へと移行している。本研究では、広範な情報探索に対処するため、マルチエージェントシステムによる「幅スケーリング」という補完的な次元を探求する。既存のマルチエージェントシステムは、手作業で設計されたワークフローとターン制の相互作用に依存することが多く、作業の並列化を効果的に実現できていない。この課題を解決するため、我々はWideSeek-R1を提案する。これはマルチエージェント強化学習(MARL)によって訓練されたリードエージェント-サブエージェントフレームワークであり、スケーラブルなオーケストレーションと並列実行を統合する。共有LLMと分離されたコンテキスト、専門ツールを活用することで、WideSeek-R1は20,000件の精選された広範情報探索タスクデータセットにおいて、リードエージェントと並列サブエージェントを共同で最適化する。大規模な実験により、WideSeek-R1-4BはWideSearchベンチマークで40.0%のアイテムF1スコアを達成し、単一エージェントのDeepSeek-R1-671Bの性能に匹敵することが示された。さらに、WideSeek-R1-4Bは並列サブエージェント数の増加に伴って一貫した性能向上を示し、幅スケーリングの有効性を実証している。
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
PDF712February 6, 2026