ZeroSearch: Стимулирование поисковых возможностей языковых моделей без выполнения поиска
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Авторы: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Аннотация
Эффективный поиск информации имеет решающее значение для улучшения способностей крупных языковых моделей (LLM) к рассуждению и генерации. В последних исследованиях изучалось использование обучения с подкреплением (RL) для повышения поисковых возможностей LLM путем взаимодействия с реальными поисковыми системами в реальных условиях. Хотя эти подходы демонстрируют многообещающие результаты, они сталкиваются с двумя основными проблемами: (1) Непредсказуемое качество документов: качество документов, возвращаемых поисковыми системами, часто оказывается непредсказуемым, что вносит шум и нестабильность в процесс обучения. (2) Чрезмерно высокие затраты на API: обучение с подкреплением требует частых запусков, потенциально включающих сотни тысяч поисковых запросов, что приводит к значительным расходам на API и серьезно ограничивает масштабируемость. Для решения этих проблем мы представляем ZeroSearch — фреймворк обучения с подкреплением, который стимулирует поисковые способности LLM без взаимодействия с реальными поисковыми системами. Наш подход начинается с легкой контролируемой тонкой настройки, которая превращает LLM в модуль поиска, способный генерировать как релевантные, так и зашумленные документы в ответ на запрос. В процессе обучения с подкреплением мы используем стратегию поэтапного запуска, которая постепенно ухудшает качество генерируемых документов, последовательно развивая способность модели к рассуждению, подвергая её всё более сложным сценариям поиска. Многочисленные эксперименты показывают, что ZeroSearch эффективно стимулирует поисковые способности LLM, используя 3B LLM в качестве модуля поиска. Примечательно, что 7B модуль поиска демонстрирует сопоставимую производительность с реальной поисковой системой, а 14B модуль даже превосходит её. Кроме того, подход хорошо обобщается как на базовые, так и на настроенные на инструкции модели различных размеров параметров и совместим с широким спектром алгоритмов обучения с подкреплением.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.Summary
AI-Generated Summary