WebThinker: Расширение возможностей крупных моделей рассуждений с помощью глубоких исследовательских способностей
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
April 30, 2025
Авторы: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Аннотация
Крупные модели рассуждений (LRMs), такие как OpenAI-o1 и DeepSeek-R1, демонстрируют впечатляющие способности к долгосрочным рассуждениям. Однако их зависимость от статического внутреннего знания ограничивает их производительность в сложных, насыщенных знаниями задачах и препятствует созданию всесторонних исследовательских отчетов, требующих синтеза разнообразной информации из интернета. Для решения этой проблемы мы предлагаем WebThinker — глубокого исследовательского агента, который позволяет LRMs автономно искать информацию в интернете, перемещаться по веб-страницам и составлять исследовательские отчеты в процессе рассуждений. WebThinker интегрирует модуль Deep Web Explorer, позволяющий LRMs динамически искать, перемещаться и извлекать информацию из интернета при обнаружении пробелов в знаниях. Он также использует стратегию Autonomous Think-Search-and-Draft, которая позволяет модели в реальном времени чередовать рассуждения, сбор информации и написание отчетов. Для дальнейшего улучшения использования исследовательских инструментов мы внедряем стратегию обучения с подкреплением (RL) через итеративную онлайн оптимизацию прямых предпочтений (DPO). Экстенсивные эксперименты на сложных бенчмарках рассуждений (GPQA, GAIA, WebWalkerQA, HLE) и задачах генерации научных отчетов (Glaive) демонстрируют, что WebThinker значительно превосходит существующие методы и мощные проприетарные системы. Наш подход повышает надежность и применимость LRMs в сложных сценариях, прокладывая путь для более способных и универсальных глубоких исследовательских систем. Код доступен по адресу https://github.com/RUC-NLPIR/WebThinker.
English
Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate
impressive long-horizon reasoning capabilities. However, their reliance on
static internal knowledge limits their performance on complex,
knowledge-intensive tasks and hinders their ability to produce comprehensive
research reports requiring synthesis of diverse web information. To address
this, we propose WebThinker, a deep research agent that empowers LRMs
to autonomously search the web, navigate web pages, and draft research reports
during the reasoning process. WebThinker integrates a Deep Web
Explorer module, enabling LRMs to dynamically search, navigate, and extract
information from the web when encountering knowledge gaps. It also employs an
Autonomous Think-Search-and-Draft strategy, allowing the model to
seamlessly interleave reasoning, information gathering, and report writing in
real time. To further enhance research tool utilization, we introduce an
RL-based training strategy via iterative online Direct Preference
Optimization (DPO). Extensive experiments on complex reasoning benchmarks
(GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive)
demonstrate that WebThinker significantly outperforms existing methods and
strong proprietary systems. Our approach enhances LRM reliability and
applicability in complex scenarios, paving the way for more capable and
versatile deep research systems. The code is available at
https://github.com/RUC-NLPIR/WebThinker.