WebThinker: Stärkung großer Reasoning-Modelle mit tiefgreifender ForschungskapazitätWebThinker: Empowering Large Reasoning Models with Deep Research
Capability
Große Reasoning-Modelle (LRMs), wie OpenAI-o1 und DeepSeek-R1, demonstrieren beeindruckende Fähigkeiten im langfristigen Reasoning. Ihre Abhängigkeit von statischem internem Wissen schränkt jedoch ihre Leistung bei komplexen, wissensintensiven Aufgaben ein und behindert ihre Fähigkeit, umfassende Forschungsberichte zu erstellen, die die Synthese vielfältiger Webinformationen erfordern. Um dies zu adressieren, schlagen wir WebThinker vor, einen tiefen Forschungsagenten, der LRMs befähigt, eigenständig das Web zu durchsuchen, Webseiten zu navigieren und Forschungsberichte während des Reasoning-Prozesses zu erstellen. WebThinker integriert ein Deep Web Explorer-Modul, das es LRMs ermöglicht, dynamisch zu suchen, zu navigieren und Informationen aus dem Web zu extrahieren, wenn Wissenslücken auftreten. Es verwendet außerdem eine autonome Think-Search-and-Draft-Strategie, die es dem Modell ermöglicht, Reasoning, Informationsbeschaffung und Berichterstellung nahtlos in Echtzeit zu verknüpfen. Um die Nutzung von Forschungswerkzeugen weiter zu verbessern, führen wir eine RL-basierte Trainingsstrategie über iterative Online Direct Preference Optimization (DPO) ein. Umfangreiche Experimente auf komplexen Reasoning-Benchmarks (GPQA, GAIA, WebWalkerQA, HLE) und wissenschaftlichen Berichterstellungsaufgaben (Glaive) zeigen, dass WebThinker bestehende Methoden und starke proprietäre Systeme deutlich übertrifft. Unser Ansatz erhöht die Zuverlässigkeit und Anwendbarkeit von LRMs in komplexen Szenarien und ebnet den Weg für leistungsfähigere und vielseitigere tiefe Forschungssysteme. Der Code ist verfügbar unter https://github.com/RUC-NLPIR/WebThinker.