WideSeek-R1: Исследование масштабирования по ширине для широкого поиска информации с помощью обучения с подкреплением на основе мультиагентных систем
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
February 4, 2026
Авторы: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) в основном были сосредоточены на масштабировании по глубине, когда единый агент решает долгосрочные задачи с помощью многошаговых рассуждений и использования инструментов. Однако по мере усложнения задач ключевым ограничением становится уже не компетентность отдельного агента, а организационная способность системы. В данной работе мы исследуем комплементарное направление — масштабирование по ширине с помощью мульти-агентных систем для решения широких информационных запросов. Существующие мульти-агентные системы часто полагаются на рутинные рабочие процессы и пошаговые взаимодействия, которые не позволяют эффективно распараллеливать работу. Чтобы устранить этот разрыв, мы предлагаем WideSeek-R1 — фреймворк «ведущий агент — подчиненные агенты», обученный с помощью мульти-агентного обучения с подкреплением (MARL) для синергии масштабируемой оркестрации и параллельного выполнения. Используя общую LLM с изолированными контекстами и специализированными инструментами, WideSeek-R1 совместно оптимизирует ведущего агента и параллельных подчиненных агентов на курируемом наборе данных из 20 000 широких информационных задач. Многочисленные эксперименты показывают, что WideSeek-R1-4B достигает показателя F1 40,0% по элементам на бенчмарке WideSearch, что сопоставимо с результатами одно-агентной модели DeepSeek-R1-671B. Более того, WideSeek-R1-4B демонстрирует стабильное улучшение производительности с увеличением числа параллельных подчиненных агентов, что подчеркивает эффективность масштабирования по ширине.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.