WebThinker: Grote Redeneermodellen Versterken met Diepgaande OnderzoekscapaciteitWebThinker: Empowering Large Reasoning Models with Deep Research
Capability
Grote redeneermodellen (LRMs), zoals OpenAI-o1 en DeepSeek-R1, tonen indrukwekkende vermogens voor langetermijnredenering. Hun afhankelijkheid van statische interne kennis beperkt echter hun prestaties op complexe, kennisintensieve taken en belemmert hun vermogen om uitgebreide onderzoeksrapporten te produceren die een synthese vereisen van diverse webinformatie. Om dit aan te pakken, stellen we WebThinker voor, een diepgaand onderzoeksagent dat LRMs in staat stelt om autonoom het web te doorzoeken, webpagina's te navigeren en onderzoeksrapporten op te stellen tijdens het redeneerproces. WebThinker integreert een Deep Web Explorer-module, waardoor LRMs dynamisch kunnen zoeken, navigeren en informatie uit het web kunnen extraheren wanneer ze kennislacunes tegenkomen. Het maakt ook gebruik van een autonome Think-Search-and-Draft-strategie, waardoor het model naadloos redeneren, informatievergaring en rapportschrijven in realtime kan afwisselen. Om het gebruik van onderzoeksinstrumenten verder te verbeteren, introduceren we een RL-gebaseerde trainingsstrategie via iteratieve online Direct Preference Optimization (DPO). Uitgebreide experimenten op complexe redeneerbenchmarks (GPQA, GAIA, WebWalkerQA, HLE) en wetenschappelijke rapportgeneratietaken (Glaive) tonen aan dat WebThinker aanzienlijk beter presteert dan bestaande methoden en sterke propriëtaire systemen. Onze aanpak verbetert de betrouwbaarheid en toepasbaarheid van LRMs in complexe scenario's, wat de weg vrijmaakt voor krachtigere en veelzijdigere diepgaande onderzoekssystemen. De code is beschikbaar op https://github.com/RUC-NLPIR/WebThinker.