WebResearcher: Liberando la capacidad de razonamiento ilimitado en agentes de horizonte largo
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
September 16, 2025
Autores: Zile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumen
Los recientes avances en sistemas de investigación profunda han demostrado el potencial de los agentes de IA para descubrir y sintetizar conocimiento de manera autónoma a partir de fuentes externas. En este artículo, presentamos WebResearcher, un marco novedoso para construir dichos agentes a través de dos componentes clave: (1) WebResearcher, un paradigma de investigación profunda iterativa que reformula la investigación profunda como un Proceso de Decisión de Markov, donde los agentes consolidan periódicamente hallazgos en informes en evolución mientras mantienen espacios de trabajo enfocados, superando la asfixia contextual y la contaminación por ruido que afectan a los enfoques mono-contextuales existentes; y (2) WebFrontier, un motor de síntesis de datos escalable que genera datos de entrenamiento de alta calidad mediante la escalada de complejidad aumentada por herramientas, permitiendo la creación sistemática de tareas de investigación que cierran la brecha entre la recuperación pasiva de conocimiento y la construcción activa de conocimiento. Cabe destacar que encontramos que los datos de entrenamiento de nuestro paradigma mejoran significativamente las capacidades de uso de herramientas incluso para los métodos mono-contextuales tradicionales. Además, nuestro paradigma escala naturalmente a través del pensamiento paralelo, permitiendo la exploración concurrente de múltiples agentes para obtener conclusiones más completas. Experimentos extensos en 6 benchmarks desafiantes demuestran que WebResearcher logra un rendimiento de vanguardia, superando incluso a sistemas propietarios de frontera.
English
Recent advances in deep-research systems have demonstrated the potential for
AI agents to autonomously discover and synthesize knowledge from external
sources. In this paper, we introduce WebResearcher, a novel framework for
building such agents through two key components: (1) WebResearcher, an
iterative deep-research paradigm that reformulates deep research as a Markov
Decision Process, where agents periodically consolidate findings into evolving
reports while maintaining focused workspaces, overcoming the context
suffocation and noise contamination that plague existing mono-contextual
approaches; and (2) WebFrontier, a scalable data synthesis engine that
generates high-quality training data through tool-augmented complexity
escalation, enabling systematic creation of research tasks that bridge the gap
between passive knowledge recall and active knowledge construction. Notably, we
find that the training data from our paradigm significantly enhances tool-use
capabilities even for traditional mono-contextual methods. Furthermore, our
paradigm naturally scales through parallel thinking, enabling concurrent
multi-agent exploration for more comprehensive conclusions. Extensive
experiments across 6 challenging benchmarks demonstrate that WebResearcher
achieves state-of-the-art performance, even surpassing frontier proprietary
systems.