WebThinker: Grote Redeneermodellen Versterken met Diepgaande Onderzoekscapaciteit

Samenvatting

Grote redeneermodellen (LRMs), zoals OpenAI-o1 en DeepSeek-R1, tonen indrukwekkende vermogens voor langetermijnredenering. Hun afhankelijkheid van statische interne kennis beperkt echter hun prestaties op complexe, kennisintensieve taken en belemmert hun vermogen om uitgebreide onderzoeksrapporten te produceren die een synthese vereisen van diverse webinformatie. Om dit aan te pakken, stellen we WebThinker voor, een diepgaand onderzoeksagent dat LRMs in staat stelt om autonoom het web te doorzoeken, webpagina's te navigeren en onderzoeksrapporten op te stellen tijdens het redeneerproces. WebThinker integreert een Deep Web Explorer-module, waardoor LRMs dynamisch kunnen zoeken, navigeren en informatie uit het web kunnen extraheren wanneer ze kennislacunes tegenkomen. Het maakt ook gebruik van een autonome Think-Search-and-Draft-strategie, waardoor het model naadloos redeneren, informatievergaring en rapportschrijven in realtime kan afwisselen. Om het gebruik van onderzoeksinstrumenten verder te verbeteren, introduceren we een RL-gebaseerde trainingsstrategie via iteratieve online Direct Preference Optimization (DPO). Uitgebreide experimenten op complexe redeneerbenchmarks (GPQA, GAIA, WebWalkerQA, HLE) en wetenschappelijke rapportgeneratietaken (Glaive) tonen aan dat WebThinker aanzienlijk beter presteert dan bestaande methoden en sterke propriëtaire systemen. Onze aanpak verbetert de betrouwbaarheid en toepasbaarheid van LRMs in complexe scenario's, wat de weg vrijmaakt voor krachtigere en veelzijdigere diepgaande onderzoekssystemen. De code is beschikbaar op https://github.com/RUC-NLPIR/WebThinker.

English

Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate impressive long-horizon reasoning capabilities. However, their reliance on static internal knowledge limits their performance on complex, knowledge-intensive tasks and hinders their ability to produce comprehensive research reports requiring synthesis of diverse web information. To address this, we propose WebThinker, a deep research agent that empowers LRMs to autonomously search the web, navigate web pages, and draft research reports during the reasoning process. WebThinker integrates a Deep Web Explorer module, enabling LRMs to dynamically search, navigate, and extract information from the web when encountering knowledge gaps. It also employs an Autonomous Think-Search-and-Draft strategy, allowing the model to seamlessly interleave reasoning, information gathering, and report writing in real time. To further enhance research tool utilization, we introduce an RL-based training strategy via iterative online Direct Preference Optimization (DPO). Extensive experiments on complex reasoning benchmarks (GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive) demonstrate that WebThinker significantly outperforms existing methods and strong proprietary systems. Our approach enhances LRM reliability and applicability in complex scenarios, paving the way for more capable and versatile deep research systems. The code is available at https://github.com/RUC-NLPIR/WebThinker.

WebThinker: Grote Redeneermodellen Versterken met Diepgaande Onderzoekscapaciteit

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

Samenvatting

Support