WebResearcher: Het ontketenen van onbegrensde redeneercapaciteit in agents met lange-termijndoelen

Samenvatting

Recente ontwikkelingen in diep-onderzoekssystemen hebben het potentieel aangetoond van AI-agenten om autonoom kennis te ontdekken en te synthetiseren uit externe bronnen. In dit artikel introduceren we WebResearcher, een nieuw raamwerk voor het bouwen van dergelijke agenten via twee belangrijke componenten: (1) WebResearcher, een iteratief diep-onderzoeksparadigma dat diep onderzoek herformuleert als een Markov-beslissingsproces, waarbij agenten periodiek bevindingen consolideren in evoluerende rapporten terwijl ze gefocuste werkruimtes behouden, waardoor de contextverstikking en ruisvervuiling die bestaande mono-contextuele benaderingen teisteren, worden overwonnen; en (2) WebFrontier, een schaalbare datasynthese-engine die hoogwaardige trainingsgegevens genereert door middel van tool-augmented complexiteitsescalatie, waardoor de systematische creatie van onderzoeks taken mogelijk wordt die de kloof tussen passieve kennisherinnering en actieve kennisconstructie overbruggen. Opmerkelijk is dat we vaststellen dat de trainingsgegevens uit ons paradigma de tool-gebruikscapaciteiten zelfs voor traditionele mono-contextuele methoden aanzienlijk verbeteren. Bovendien schaalt ons paradigma van nature door parallel denken, waardoor gelijktijdige multi-agent exploratie mogelijk wordt voor meer uitgebreide conclusies. Uitgebreide experimenten over 6 uitdagende benchmarks tonen aan dat WebResearcher state-of-the-art prestaties bereikt, en zelfs frontier propriëtaire systemen overtreft.

English

Recent advances in deep-research systems have demonstrated the potential for AI agents to autonomously discover and synthesize knowledge from external sources. In this paper, we introduce WebResearcher, a novel framework for building such agents through two key components: (1) WebResearcher, an iterative deep-research paradigm that reformulates deep research as a Markov Decision Process, where agents periodically consolidate findings into evolving reports while maintaining focused workspaces, overcoming the context suffocation and noise contamination that plague existing mono-contextual approaches; and (2) WebFrontier, a scalable data synthesis engine that generates high-quality training data through tool-augmented complexity escalation, enabling systematic creation of research tasks that bridge the gap between passive knowledge recall and active knowledge construction. Notably, we find that the training data from our paradigm significantly enhances tool-use capabilities even for traditional mono-contextual methods. Furthermore, our paradigm naturally scales through parallel thinking, enabling concurrent multi-agent exploration for more comprehensive conclusions. Extensive experiments across 6 challenging benchmarks demonstrate that WebResearcher achieves state-of-the-art performance, even surpassing frontier proprietary systems.

WebResearcher: Het ontketenen van onbegrensde redeneercapaciteit in agents met lange-termijndoelen

WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

Samenvatting

Support