ChatPaper.aiChatPaper

WebThinker: Stärkung großer Reasoning-Modelle mit tiefgreifender Forschungskapazität

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

April 30, 2025
Autoren: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
cs.AI

Zusammenfassung

Große Reasoning-Modelle (LRMs), wie OpenAI-o1 und DeepSeek-R1, demonstrieren beeindruckende Fähigkeiten im langfristigen Reasoning. Ihre Abhängigkeit von statischem internem Wissen schränkt jedoch ihre Leistung bei komplexen, wissensintensiven Aufgaben ein und behindert ihre Fähigkeit, umfassende Forschungsberichte zu erstellen, die die Synthese vielfältiger Webinformationen erfordern. Um dies zu adressieren, schlagen wir WebThinker vor, einen tiefen Forschungsagenten, der LRMs befähigt, eigenständig das Web zu durchsuchen, Webseiten zu navigieren und Forschungsberichte während des Reasoning-Prozesses zu erstellen. WebThinker integriert ein Deep Web Explorer-Modul, das es LRMs ermöglicht, dynamisch zu suchen, zu navigieren und Informationen aus dem Web zu extrahieren, wenn Wissenslücken auftreten. Es verwendet außerdem eine autonome Think-Search-and-Draft-Strategie, die es dem Modell ermöglicht, Reasoning, Informationsbeschaffung und Berichterstellung nahtlos in Echtzeit zu verknüpfen. Um die Nutzung von Forschungswerkzeugen weiter zu verbessern, führen wir eine RL-basierte Trainingsstrategie über iterative Online Direct Preference Optimization (DPO) ein. Umfangreiche Experimente auf komplexen Reasoning-Benchmarks (GPQA, GAIA, WebWalkerQA, HLE) und wissenschaftlichen Berichterstellungsaufgaben (Glaive) zeigen, dass WebThinker bestehende Methoden und starke proprietäre Systeme deutlich übertrifft. Unser Ansatz erhöht die Zuverlässigkeit und Anwendbarkeit von LRMs in komplexen Szenarien und ebnet den Weg für leistungsfähigere und vielseitigere tiefe Forschungssysteme. Der Code ist verfügbar unter https://github.com/RUC-NLPIR/WebThinker.
English
Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate impressive long-horizon reasoning capabilities. However, their reliance on static internal knowledge limits their performance on complex, knowledge-intensive tasks and hinders their ability to produce comprehensive research reports requiring synthesis of diverse web information. To address this, we propose WebThinker, a deep research agent that empowers LRMs to autonomously search the web, navigate web pages, and draft research reports during the reasoning process. WebThinker integrates a Deep Web Explorer module, enabling LRMs to dynamically search, navigate, and extract information from the web when encountering knowledge gaps. It also employs an Autonomous Think-Search-and-Draft strategy, allowing the model to seamlessly interleave reasoning, information gathering, and report writing in real time. To further enhance research tool utilization, we introduce an RL-based training strategy via iterative online Direct Preference Optimization (DPO). Extensive experiments on complex reasoning benchmarks (GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive) demonstrate that WebThinker significantly outperforms existing methods and strong proprietary systems. Our approach enhances LRM reliability and applicability in complex scenarios, paving the way for more capable and versatile deep research systems. The code is available at https://github.com/RUC-NLPIR/WebThinker.
PDF576May 4, 2025