ChatPaper.aiChatPaper

WideSeek-R1: Explorando a Escalabilidade em Largura para Busca Abrangente de Informações via Aprendizagem por Reforço Multiagente

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

February 4, 2026
Autores: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI

Resumo

Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm-se concentrado principalmente na escala de profundidade, em que um único agente resolve problemas de longo horizonte com raciocínio multi-etapas e uso de ferramentas. No entanto, à medida que as tarefas se tornam mais amplas, o principal gargalo desloca-se da competência individual para a capacidade organizacional. Neste trabalho, exploramos uma dimensão complementar de escala de largura com sistemas multiagente para abordar a busca de informação abrangente. Os sistemas multiagente existentes frequentemente dependem de fluxos de trabalho manuais e interações de tomada de turnos que não conseguem paralelizar o trabalho de forma eficaz. Para colmatar esta lacuna, propomos o WideSeek-R1, uma arquitetura de agente-líder-subagente treinada via aprendizagem por reforço multiagente (MARL) para sinergizar orquestração escalável e execução paralela. Ao utilizar um LLM partilhado com contextos isolados e ferramentas especializadas, o WideSeek-R1 otimiza conjuntamente o agente líder e os subagentes paralelos num conjunto de dados curado de 20 mil tarefas de busca de informação abrangente. Experimentos extensivos mostram que o WideSeek-R1-4B alcança uma pontuação F1 de item de 40,0% no benchmark WideSearch, o que é comparável ao desempenho do agente único DeepSeek-R1-671B. Além disso, o WideSeek-R1-4B exibe ganhos de desempenho consistentes à medida que o número de subagentes paralelos aumenta, destacando a eficácia da escala de largura.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
PDF864February 8, 2026