WebThinker: 심층 연구 능력을 갖춘 대규모 추론 모델의 강화WebThinker: Empowering Large Reasoning Models with Deep Research
Capability
OpenAI-o1 및 DeepSeek-R1과 같은 대규모 추론 모델(LRMs)은 장기적인 추론 능력을 인상적으로 보여줍니다. 그러나 이러한 모델은 정적인 내부 지식에 의존하기 때문에 복잡하고 지식 집약적인 작업에서의 성능이 제한되며, 다양한 웹 정보를 종합해야 하는 포괄적인 연구 보고서 작성 능력도 저해됩니다. 이를 해결하기 위해, 우리는 LRMs가 추론 과정 중에 웹을 자율적으로 탐색하고, 웹 페이지를 탐색하며, 연구 보고서를 작성할 수 있도록 지원하는 심층 연구 에이전트인 WebThinker를 제안합니다. WebThinker는 Deep Web Explorer 모듈을 통합하여, LRMs가 지식 격차를 마주했을 때 웹에서 동적으로 정보를 검색, 탐색 및 추출할 수 있도록 합니다. 또한, Autonomous Think-Search-and-Draft 전략을 사용하여 모델이 실시간으로 추론, 정보 수집 및 보고서 작성을 원활하게 교차할 수 있도록 합니다. 연구 도구 활용을 더욱 향상시키기 위해, 우리는 반복적인 온라인 Direct Preference Optimization(DPO)을 통한 RL 기반 훈련 전략을 도입했습니다. 복잡한 추론 벤치마크(GPQA, GAIA, WebWalkerQA, HLE) 및 과학 보고서 생성 작업(Glaive)에 대한 광범위한 실험을 통해 WebThinker가 기존 방법 및 강력한 독점 시스템을 크게 능가함을 입증했습니다. 우리의 접근 방식은 복잡한 시나리오에서 LRM의 신뢰성과 적용 가능성을 향상시키며, 더 능력 있고 다재다능한 심층 연구 시스템을 위한 길을 열어줍니다. 코드는 https://github.com/RUC-NLPIR/WebThinker에서 확인할 수 있습니다.