ChatPaper.aiChatPaper

WebThinker: 심층 연구 능력을 갖춘 대규모 추론 모델의 강화

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

April 30, 2025
저자: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
cs.AI

초록

OpenAI-o1 및 DeepSeek-R1과 같은 대규모 추론 모델(LRMs)은 장기적인 추론 능력을 인상적으로 보여줍니다. 그러나 이러한 모델은 정적인 내부 지식에 의존하기 때문에 복잡하고 지식 집약적인 작업에서의 성능이 제한되며, 다양한 웹 정보를 종합해야 하는 포괄적인 연구 보고서 작성 능력도 저해됩니다. 이를 해결하기 위해, 우리는 LRMs가 추론 과정 중에 웹을 자율적으로 탐색하고, 웹 페이지를 탐색하며, 연구 보고서를 작성할 수 있도록 지원하는 심층 연구 에이전트인 WebThinker를 제안합니다. WebThinker는 Deep Web Explorer 모듈을 통합하여, LRMs가 지식 격차를 마주했을 때 웹에서 동적으로 정보를 검색, 탐색 및 추출할 수 있도록 합니다. 또한, Autonomous Think-Search-and-Draft 전략을 사용하여 모델이 실시간으로 추론, 정보 수집 및 보고서 작성을 원활하게 교차할 수 있도록 합니다. 연구 도구 활용을 더욱 향상시키기 위해, 우리는 반복적인 온라인 Direct Preference Optimization(DPO)을 통한 RL 기반 훈련 전략을 도입했습니다. 복잡한 추론 벤치마크(GPQA, GAIA, WebWalkerQA, HLE) 및 과학 보고서 생성 작업(Glaive)에 대한 광범위한 실험을 통해 WebThinker가 기존 방법 및 강력한 독점 시스템을 크게 능가함을 입증했습니다. 우리의 접근 방식은 복잡한 시나리오에서 LRM의 신뢰성과 적용 가능성을 향상시키며, 더 능력 있고 다재다능한 심층 연구 시스템을 위한 길을 열어줍니다. 코드는 https://github.com/RUC-NLPIR/WebThinker에서 확인할 수 있습니다.
English
Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate impressive long-horizon reasoning capabilities. However, their reliance on static internal knowledge limits their performance on complex, knowledge-intensive tasks and hinders their ability to produce comprehensive research reports requiring synthesis of diverse web information. To address this, we propose WebThinker, a deep research agent that empowers LRMs to autonomously search the web, navigate web pages, and draft research reports during the reasoning process. WebThinker integrates a Deep Web Explorer module, enabling LRMs to dynamically search, navigate, and extract information from the web when encountering knowledge gaps. It also employs an Autonomous Think-Search-and-Draft strategy, allowing the model to seamlessly interleave reasoning, information gathering, and report writing in real time. To further enhance research tool utilization, we introduce an RL-based training strategy via iterative online Direct Preference Optimization (DPO). Extensive experiments on complex reasoning benchmarks (GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive) demonstrate that WebThinker significantly outperforms existing methods and strong proprietary systems. Our approach enhances LRM reliability and applicability in complex scenarios, paving the way for more capable and versatile deep research systems. The code is available at https://github.com/RUC-NLPIR/WebThinker.
PDF576May 4, 2025