WideSeek-R1 : Exploration de la mise à l'échelle en largeur pour la recherche d'information étendue via l'apprentissage par renforcement multi-agent
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
February 4, 2026
papers.authors: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI
papers.abstract
Les progrès récents des grands modèles de langage (LLM) se sont principalement concentrés sur la mise à l'échelle en profondeur, où un agent unique résout des problèmes à long terme grâce à un raisonnement multi-étapes et à l'utilisation d'outils. Cependant, à mesure que les tâches s'élargissent, le principal goulot d'étranglement passe de la compétence individuelle à la capacité organisationnelle. Dans ce travail, nous explorons une dimension complémentaire de mise à l'échelle en largeur avec des systèmes multi-agents pour répondre à la recherche d'information étendue. Les systèmes multi-agents existants reposent souvent sur des workflows artisanaux et des interactions alternées qui ne parviennent pas à paralléliser efficacement le travail. Pour combler cette lacune, nous proposons WideSeek-R1, un framework agent-chef/sous-agents entraîné par apprentissage par renforcement multi-agents (MARL) pour synergiser l'orchestration scalable et l'exécution parallèle. En utilisant un LLM partagé avec des contextes isolés et des outils spécialisés, WideSeek-R1 optimise conjointement l'agent chef et les sous-agents parallèles sur un jeu de données curé de 20 000 tâches de recherche d'information étendue. Des expériences approfondies montrent que WideSeek-R1-4B atteint un score F1 de 40,0 % sur le benchmark WideSearch, ce qui est comparable aux performances de l'agent unique DeepSeek-R1-671B. De plus, WideSeek-R1-4B présente des gains de performance constants à mesure que le nombre de sous-agents parallèles augmente, soulignant l'efficacité de la mise à l'échelle en largeur.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.