ChatPaper.aiChatPaper

WebThinker: Potenciando Modelos de Razonamiento a Gran Escala con Capacidad de Investigación Profunda

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

April 30, 2025
Autores: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
cs.AI

Resumen

Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés), como OpenAI-o1 y DeepSeek-R1, demuestran capacidades impresionantes para el razonamiento de largo alcance. Sin embargo, su dependencia de conocimientos internos estáticos limita su rendimiento en tareas complejas y con gran demanda de conocimiento, y dificulta su capacidad para producir informes de investigación exhaustivos que requieren la síntesis de información diversa de la web. Para abordar esto, proponemos WebThinker, un agente de investigación profunda que capacita a los LRMs para buscar en la web de manera autónoma, navegar por páginas web y redactar informes de investigación durante el proceso de razonamiento. WebThinker integra un módulo de Explorador Web Profundo, permitiendo que los LRMs busquen, naveguen y extraigan información de la web de manera dinámica cuando se encuentran con lagunas de conocimiento. También emplea una estrategia autónoma de Pensar-Buscar-y-Redactar, que permite al modelo intercalar de manera fluida el razonamiento, la recopilación de información y la redacción de informes en tiempo real. Para mejorar aún más la utilización de herramientas de investigación, introducimos una estrategia de entrenamiento basada en Aprendizaje por Refuerzo (RL) mediante la Optimización Directa de Preferencias (DPO) iterativa en línea. Experimentos exhaustivos en benchmarks de razonamiento complejo (GPQA, GAIA, WebWalkerQA, HLE) y tareas de generación de informes científicos (Glaive) demuestran que WebThinker supera significativamente a los métodos existentes y a sistemas propietarios robustos. Nuestro enfoque mejora la fiabilidad y aplicabilidad de los LRMs en escenarios complejos, allanando el camino para sistemas de investigación profunda más capaces y versátiles. El código está disponible en https://github.com/RUC-NLPIR/WebThinker.
English
Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate impressive long-horizon reasoning capabilities. However, their reliance on static internal knowledge limits their performance on complex, knowledge-intensive tasks and hinders their ability to produce comprehensive research reports requiring synthesis of diverse web information. To address this, we propose WebThinker, a deep research agent that empowers LRMs to autonomously search the web, navigate web pages, and draft research reports during the reasoning process. WebThinker integrates a Deep Web Explorer module, enabling LRMs to dynamically search, navigate, and extract information from the web when encountering knowledge gaps. It also employs an Autonomous Think-Search-and-Draft strategy, allowing the model to seamlessly interleave reasoning, information gathering, and report writing in real time. To further enhance research tool utilization, we introduce an RL-based training strategy via iterative online Direct Preference Optimization (DPO). Extensive experiments on complex reasoning benchmarks (GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive) demonstrate that WebThinker significantly outperforms existing methods and strong proprietary systems. Our approach enhances LRM reliability and applicability in complex scenarios, paving the way for more capable and versatile deep research systems. The code is available at https://github.com/RUC-NLPIR/WebThinker.
PDF576May 4, 2025