WebThinker: Potenciando Modelos de Razonamiento a Gran Escala con Capacidad de Investigación ProfundaWebThinker: Empowering Large Reasoning Models with Deep Research
Capability
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés), como OpenAI-o1 y DeepSeek-R1, demuestran capacidades impresionantes para el razonamiento de largo alcance. Sin embargo, su dependencia de conocimientos internos estáticos limita su rendimiento en tareas complejas y con gran demanda de conocimiento, y dificulta su capacidad para producir informes de investigación exhaustivos que requieren la síntesis de información diversa de la web. Para abordar esto, proponemos WebThinker, un agente de investigación profunda que capacita a los LRMs para buscar en la web de manera autónoma, navegar por páginas web y redactar informes de investigación durante el proceso de razonamiento. WebThinker integra un módulo de Explorador Web Profundo, permitiendo que los LRMs busquen, naveguen y extraigan información de la web de manera dinámica cuando se encuentran con lagunas de conocimiento. También emplea una estrategia autónoma de Pensar-Buscar-y-Redactar, que permite al modelo intercalar de manera fluida el razonamiento, la recopilación de información y la redacción de informes en tiempo real. Para mejorar aún más la utilización de herramientas de investigación, introducimos una estrategia de entrenamiento basada en Aprendizaje por Refuerzo (RL) mediante la Optimización Directa de Preferencias (DPO) iterativa en línea. Experimentos exhaustivos en benchmarks de razonamiento complejo (GPQA, GAIA, WebWalkerQA, HLE) y tareas de generación de informes científicos (Glaive) demuestran que WebThinker supera significativamente a los métodos existentes y a sistemas propietarios robustos. Nuestro enfoque mejora la fiabilidad y aplicabilidad de los LRMs en escenarios complejos, allanando el camino para sistemas de investigación profunda más capaces y versátiles. El código está disponible en https://github.com/RUC-NLPIR/WebThinker.