ChatPaper.aiChatPaper

WideSeek-R1: Erforschung der Breitenskalerung für umfassende Informationssuche mittels Multi-Agenten-Verstärkungslernen

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

February 4, 2026
papers.authors: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI

papers.abstract

Jüngste Fortschritte bei Large Language Models (LLMs) konzentrierten sich weitgehend auf Skalierung in der Tiefe, bei der ein einzelner Agent langfristige Probleme mit mehrstufigem Reasoning und Werkzeugeinsatz löst. Wenn Aufgaben jedoch breiter werden, verlagert sich der entscheidende Engpass von individueller Kompetenz zu organisatorischer Fähigkeit. In dieser Arbeit untersuchen wir eine komplementäre Dimension der Skalierung in der Breite mit Multi-Agenten-Systemen, um breite Informationssuche zu adressieren. Bestehende Multi-Agenten-Systeme basieren oft auf manuell erstellten Workflows und wechselseitigen Interaktionen, die eine effektive Parallelisierung der Arbeit nicht leisten. Um diese Lücke zu schließen, schlagen wir WideSeek-R1 vor, ein Lead-Agent-Subagent-Framework, das durch Multi-Agent Reinforcement Learning (MARL) trainiert wird, um skalierbare Orchestrierung und parallele Ausführung zu synergisieren. Durch die Nutzung eines gemeinsamen LLM mit isolierten Kontexten und spezialisierten Werkzeugen optimiert WideSeek-R1 gemeinsam den Lead-Agenten und parallele Subagenten auf einem kuratierten Datensatz mit 20.000 breiten Informationssuchaufgaben. Umfangreiche Experimente zeigen, dass WideSeek-R1-4B einen Item-F1-Score von 40,0 % auf dem WideSearch-Benchmark erreicht, was mit der Leistung des Single-Agenten DeepSeek-R1-671B vergleichbar ist. Darüber hinaus zeigt WideSeek-R1-4B konsistente Leistungssteigerungen mit zunehmender Anzahl paralleler Subagenten, was die Wirksamkeit der Skalierung in der Breite unterstreicht.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
PDF712February 6, 2026