WideSeek-R1: Esplorazione dello Scalaggio in Ampiezza per la Ricerca Estensiva di Informazioni tramite Apprendimento per Rinforzo Multi-Agente
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
February 4, 2026
Autori: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) si sono concentrati prevalentemente sullo scaling in profondità, dove un singolo agente risolve problemi a lungo orizzonte mediante ragionamento a più fasi e utilizzo di strumenti. Tuttavia, man mano che i compiti diventano più ampi, il collo di bottiglia principale si sposta dalla competenza individuale alla capacità organizzativa. In questo lavoro, esploriamo una dimensione complementare di scaling in ampiezza attraverso sistemi multi-agente per affrontare la ricerca di informazioni su vasta scala. I sistemi multi-agente esistenti spesso si basano su flussi di lavoro predefiniti e interazioni a turni che non riescono a parallelizzare efficacemente il lavoro. Per colmare questa lacuna, proponiamo WideSeek-R1, un framework agente-capo-sottoagente addestrato tramite apprendimento per rinforzo multi-agente (MARL) per sinergizzare un'orchestrazione scalabile e un'esecuzione parallela. Utilizzando un LLM condiviso con contesti isolati e strumenti specializzati, WideSeek-R1 ottimizza congiuntamente l'agente capo e i sottoagenti paralleli su un dataset curato di 20.000 compiti di ricerca informazioni ampia. Esperimenti estensivi mostrano che WideSeek-R1-4B raggiunge un punteggio F1 di item del 40.0% sul benchmark WideSearch, risultato paragonabile alle prestazioni del single-agent DeepSeek-R1-671B. Inoltre, WideSeek-R1-4B mostra miglioramenti prestazionali consistenti all'aumentare del numero di sottoagenti paralleli, evidenziando l'efficacia dello scaling in ampiezza.
English
Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.