WebThinker: Расширение возможностей крупных моделей рассуждений с помощью глубоких исследовательских способностейWebThinker: Empowering Large Reasoning Models with Deep Research
Capability
Крупные модели рассуждений (LRMs), такие как OpenAI-o1 и DeepSeek-R1, демонстрируют впечатляющие способности к долгосрочным рассуждениям. Однако их зависимость от статического внутреннего знания ограничивает их производительность в сложных, насыщенных знаниями задачах и препятствует созданию всесторонних исследовательских отчетов, требующих синтеза разнообразной информации из интернета. Для решения этой проблемы мы предлагаем WebThinker — глубокого исследовательского агента, который позволяет LRMs автономно искать информацию в интернете, перемещаться по веб-страницам и составлять исследовательские отчеты в процессе рассуждений. WebThinker интегрирует модуль Deep Web Explorer, позволяющий LRMs динамически искать, перемещаться и извлекать информацию из интернета при обнаружении пробелов в знаниях. Он также использует стратегию Autonomous Think-Search-and-Draft, которая позволяет модели в реальном времени чередовать рассуждения, сбор информации и написание отчетов. Для дальнейшего улучшения использования исследовательских инструментов мы внедряем стратегию обучения с подкреплением (RL) через итеративную онлайн оптимизацию прямых предпочтений (DPO). Экстенсивные эксперименты на сложных бенчмарках рассуждений (GPQA, GAIA, WebWalkerQA, HLE) и задачах генерации научных отчетов (Glaive) демонстрируют, что WebThinker значительно превосходит существующие методы и мощные проприетарные системы. Наш подход повышает надежность и применимость LRMs в сложных сценариях, прокладывая путь для более способных и универсальных глубоких исследовательских систем. Код доступен по адресу https://github.com/RUC-NLPIR/WebThinker.