ChatPaper.aiChatPaper

WideSeek-R1: Verkenning van breedteschaling voor breed informatie zoeken via multi-agent reinforcement learning

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

February 4, 2026
Auteurs: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI

Samenvatting

Recente vooruitgang in Large Language Models (LLM's) heeft zich grotendeels gericht op *depth scaling* (diepteschaling), waarbij een enkele agent langetermijnproblemen oplost met meerstapsredenering en toolgebruik. Naarmate taken echter breder worden, verschuift het belangrijkste knelpunt van individuele competentie naar organisatorisch vermogen. In dit werk verkennen we een complementaire dimensie van *width scaling* (breedteschaling) met multi-agent systemen om brede informatiezoekvragen aan te pakken. Bestaande multi-agent systemen zijn vaak afhankelijk van handmatig ontworpen workflows en beurtelingsinteracties die werk niet effectief paralleliseren. Om deze kloof te overbruggen, stellen we WideSeek-R1 voor, een *lead-agent-subagent* raamwerk dat is getraind via *multi-agent reinforcement learning* (MARL) om schaalbare orchestratie en parallelle uitvoering te combineren. Door gebruik te maken van een gedeeld LLM met geïsoleerde contexten en gespecialiseerde tools, optimaliseert WideSeek-R1 gezamenlijk de lead-agent en parallelle subagents op een samengestelde dataset van 20k brede informatiezoektaken. Uitgebreide experimenten tonen aan dat WideSeek-R1-4B een item F1-score van 40.0% behaalt op de WideSearch-benchmark, wat vergelijkbaar is met de prestaties van de single-agent DeepSeek-R1-671B. Bovendien vertoont WideSeek-R1-4B consistente prestatieverbeteringen naarmate het aantal parallelle subagents toeneemt, wat de effectiviteit van breedteschaling benadrukt.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
PDF712February 6, 2026