WebThinker: Capacitando Grandes Modelos de Raciocínio com Habilidade Profunda de Pesquisa
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
April 30, 2025
Autores: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Resumo
Grandes modelos de raciocínio (LRMs, do inglês Large Reasoning Models), como o OpenAI-o1 e o DeepSeek-R1, demonstram capacidades impressionantes de raciocínio de longo prazo. No entanto, sua dependência de conhecimento interno estático limita seu desempenho em tarefas complexas e intensivas em conhecimento, além de dificultar sua capacidade de produzir relatórios de pesquisa abrangentes que exigem a síntese de diversas informações da web. Para resolver isso, propomos o WebThinker, um agente de pesquisa profunda que capacita os LRMs a buscar autonomamente na web, navegar por páginas da internet e redigir relatórios de pesquisa durante o processo de raciocínio. O WebThinker integra um módulo de Exploração Profunda da Web, permitindo que os LRMs busquem, naveguem e extraiam informações da web de forma dinâmica ao encontrarem lacunas de conhecimento. Ele também emprega uma estratégia autônoma de Pensar-Buscar-Escrever, permitindo que o modelo intercale de forma contínua o raciocínio, a coleta de informações e a redação de relatórios em tempo real. Para aprimorar ainda mais a utilização de ferramentas de pesquisa, introduzimos uma estratégia de treinamento baseada em Aprendizado por Reforço (RL) via Otimização Direta de Preferências (DPO, do inglês Direct Preference Optimization) iterativa online. Experimentos extensos em benchmarks de raciocínio complexo (GPQA, GAIA, WebWalkerQA, HLE) e tarefas de geração de relatórios científicos (Glaive) demonstram que o WebThinker supera significativamente os métodos existentes e sistemas proprietários robustos. Nossa abordagem aumenta a confiabilidade e a aplicabilidade dos LRMs em cenários complexos, abrindo caminho para sistemas de pesquisa profunda mais capazes e versáteis. O código está disponível em https://github.com/RUC-NLPIR/WebThinker.
English
Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate
impressive long-horizon reasoning capabilities. However, their reliance on
static internal knowledge limits their performance on complex,
knowledge-intensive tasks and hinders their ability to produce comprehensive
research reports requiring synthesis of diverse web information. To address
this, we propose WebThinker, a deep research agent that empowers LRMs
to autonomously search the web, navigate web pages, and draft research reports
during the reasoning process. WebThinker integrates a Deep Web
Explorer module, enabling LRMs to dynamically search, navigate, and extract
information from the web when encountering knowledge gaps. It also employs an
Autonomous Think-Search-and-Draft strategy, allowing the model to
seamlessly interleave reasoning, information gathering, and report writing in
real time. To further enhance research tool utilization, we introduce an
RL-based training strategy via iterative online Direct Preference
Optimization (DPO). Extensive experiments on complex reasoning benchmarks
(GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive)
demonstrate that WebThinker significantly outperforms existing methods and
strong proprietary systems. Our approach enhances LRM reliability and
applicability in complex scenarios, paving the way for more capable and
versatile deep research systems. The code is available at
https://github.com/RUC-NLPIR/WebThinker.