WebThinker: Grote Redeneermodellen Versterken met Diepgaande Onderzoekscapaciteit
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
April 30, 2025
Auteurs: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Samenvatting
Grote redeneermodellen (LRMs), zoals OpenAI-o1 en DeepSeek-R1, tonen indrukwekkende vermogens voor langetermijnredenering. Hun afhankelijkheid van statische interne kennis beperkt echter hun prestaties op complexe, kennisintensieve taken en belemmert hun vermogen om uitgebreide onderzoeksrapporten te produceren die een synthese vereisen van diverse webinformatie. Om dit aan te pakken, stellen we WebThinker voor, een diepgaand onderzoeksagent dat LRMs in staat stelt om autonoom het web te doorzoeken, webpagina's te navigeren en onderzoeksrapporten op te stellen tijdens het redeneerproces. WebThinker integreert een Deep Web Explorer-module, waardoor LRMs dynamisch kunnen zoeken, navigeren en informatie uit het web kunnen extraheren wanneer ze kennislacunes tegenkomen. Het maakt ook gebruik van een autonome Think-Search-and-Draft-strategie, waardoor het model naadloos redeneren, informatievergaring en rapportschrijven in realtime kan afwisselen. Om het gebruik van onderzoeksinstrumenten verder te verbeteren, introduceren we een RL-gebaseerde trainingsstrategie via iteratieve online Direct Preference Optimization (DPO). Uitgebreide experimenten op complexe redeneerbenchmarks (GPQA, GAIA, WebWalkerQA, HLE) en wetenschappelijke rapportgeneratietaken (Glaive) tonen aan dat WebThinker aanzienlijk beter presteert dan bestaande methoden en sterke propriëtaire systemen. Onze aanpak verbetert de betrouwbaarheid en toepasbaarheid van LRMs in complexe scenario's, wat de weg vrijmaakt voor krachtigere en veelzijdigere diepgaande onderzoekssystemen. De code is beschikbaar op https://github.com/RUC-NLPIR/WebThinker.
English
Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate
impressive long-horizon reasoning capabilities. However, their reliance on
static internal knowledge limits their performance on complex,
knowledge-intensive tasks and hinders their ability to produce comprehensive
research reports requiring synthesis of diverse web information. To address
this, we propose WebThinker, a deep research agent that empowers LRMs
to autonomously search the web, navigate web pages, and draft research reports
during the reasoning process. WebThinker integrates a Deep Web
Explorer module, enabling LRMs to dynamically search, navigate, and extract
information from the web when encountering knowledge gaps. It also employs an
Autonomous Think-Search-and-Draft strategy, allowing the model to
seamlessly interleave reasoning, information gathering, and report writing in
real time. To further enhance research tool utilization, we introduce an
RL-based training strategy via iterative online Direct Preference
Optimization (DPO). Extensive experiments on complex reasoning benchmarks
(GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive)
demonstrate that WebThinker significantly outperforms existing methods and
strong proprietary systems. Our approach enhances LRM reliability and
applicability in complex scenarios, paving the way for more capable and
versatile deep research systems. The code is available at
https://github.com/RUC-NLPIR/WebThinker.