WebResearcher: Het ontketenen van onbegrensde redeneercapaciteit in agents met lange-termijndoelen
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
September 16, 2025
Auteurs: Zile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Recente ontwikkelingen in diep-onderzoekssystemen hebben het potentieel aangetoond van AI-agenten om autonoom kennis te ontdekken en te synthetiseren uit externe bronnen. In dit artikel introduceren we WebResearcher, een nieuw raamwerk voor het bouwen van dergelijke agenten via twee belangrijke componenten: (1) WebResearcher, een iteratief diep-onderzoeksparadigma dat diep onderzoek herformuleert als een Markov-beslissingsproces, waarbij agenten periodiek bevindingen consolideren in evoluerende rapporten terwijl ze gefocuste werkruimtes behouden, waardoor de contextverstikking en ruisvervuiling die bestaande mono-contextuele benaderingen teisteren, worden overwonnen; en (2) WebFrontier, een schaalbare datasynthese-engine die hoogwaardige trainingsgegevens genereert door middel van tool-augmented complexiteitsescalatie, waardoor de systematische creatie van onderzoeks taken mogelijk wordt die de kloof tussen passieve kennisherinnering en actieve kennisconstructie overbruggen. Opmerkelijk is dat we vaststellen dat de trainingsgegevens uit ons paradigma de tool-gebruikscapaciteiten zelfs voor traditionele mono-contextuele methoden aanzienlijk verbeteren. Bovendien schaalt ons paradigma van nature door parallel denken, waardoor gelijktijdige multi-agent exploratie mogelijk wordt voor meer uitgebreide conclusies. Uitgebreide experimenten over 6 uitdagende benchmarks tonen aan dat WebResearcher state-of-the-art prestaties bereikt, en zelfs frontier propriëtaire systemen overtreft.
English
Recent advances in deep-research systems have demonstrated the potential for
AI agents to autonomously discover and synthesize knowledge from external
sources. In this paper, we introduce WebResearcher, a novel framework for
building such agents through two key components: (1) WebResearcher, an
iterative deep-research paradigm that reformulates deep research as a Markov
Decision Process, where agents periodically consolidate findings into evolving
reports while maintaining focused workspaces, overcoming the context
suffocation and noise contamination that plague existing mono-contextual
approaches; and (2) WebFrontier, a scalable data synthesis engine that
generates high-quality training data through tool-augmented complexity
escalation, enabling systematic creation of research tasks that bridge the gap
between passive knowledge recall and active knowledge construction. Notably, we
find that the training data from our paradigm significantly enhances tool-use
capabilities even for traditional mono-contextual methods. Furthermore, our
paradigm naturally scales through parallel thinking, enabling concurrent
multi-agent exploration for more comprehensive conclusions. Extensive
experiments across 6 challenging benchmarks demonstrate that WebResearcher
achieves state-of-the-art performance, even surpassing frontier proprietary
systems.