ChatPaper.aiChatPaper

WideSeek-R1: Exploración del Escalado en Anchura para la Búsqueda Amplia de Información mediante Aprendizaje por Refuerzo Multiagente

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

February 4, 2026
Autores: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs) se han centrado principalmente en el escalado en profundidad, donde un único agente resuelve problemas de largo horizonte mediante razonamiento multi-turno y uso de herramientas. Sin embargo, a medida que las tareas se vuelven más amplias, el cuello de botella clave cambia de la competencia individual a la capacidad organizativa. En este trabajo, exploramos una dimensión complementaria de escalado en amplitud mediante sistemas multi-agente para abordar la búsqueda de información amplia. Los sistemas multi-agente existentes a menudo dependen de flujos de trabajo manuales e interacciones por turnos que no logran paralelizar el trabajo de manera efectiva. Para cerrar esta brecha, proponemos WideSeek-R1, un marco de agente líder-subagente entrenado mediante aprendizaje por refuerzo multi-agente (MARL) para sinergizar la orquestación escalable y la ejecución paralela. Al utilizar un LLM compartido con contextos aislados y herramientas especializadas, WideSeek-R1 optimiza conjuntamente al agente líder y a los subagentes paralelos en un conjunto de datos curado de 20.000 tareas de búsqueda de información amplia. Experimentos exhaustivos muestran que WideSeek-R1-4B alcanza una puntuación F1 de elementos del 40.0% en el benchmark WideSearch, lo cual es comparable al rendimiento del agente único DeepSeek-R1-671B. Además, WideSeek-R1-4B exhibe ganancias de rendimiento consistentes a medida que aumenta el número de subagentes paralelos, destacando la efectividad del escalado en amplitud.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
PDF712February 6, 2026