ChatPaper.aiChatPaper

ZeroSearch: Стимулирование поисковых возможностей языковых моделей без выполнения поиска

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7, 2025
Авторы: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI

Аннотация

Эффективный поиск информации имеет решающее значение для улучшения способностей крупных языковых моделей (LLM) к рассуждению и генерации. В последних исследованиях изучалось использование обучения с подкреплением (RL) для повышения поисковых возможностей LLM путем взаимодействия с реальными поисковыми системами в реальных условиях. Хотя эти подходы демонстрируют многообещающие результаты, они сталкиваются с двумя основными проблемами: (1) Непредсказуемое качество документов: качество документов, возвращаемых поисковыми системами, часто оказывается непредсказуемым, что вносит шум и нестабильность в процесс обучения. (2) Чрезмерно высокие затраты на API: обучение с подкреплением требует частых запусков, потенциально включающих сотни тысяч поисковых запросов, что приводит к значительным расходам на API и серьезно ограничивает масштабируемость. Для решения этих проблем мы представляем ZeroSearch — фреймворк обучения с подкреплением, который стимулирует поисковые способности LLM без взаимодействия с реальными поисковыми системами. Наш подход начинается с легкой контролируемой тонкой настройки, которая превращает LLM в модуль поиска, способный генерировать как релевантные, так и зашумленные документы в ответ на запрос. В процессе обучения с подкреплением мы используем стратегию поэтапного запуска, которая постепенно ухудшает качество генерируемых документов, последовательно развивая способность модели к рассуждению, подвергая её всё более сложным сценариям поиска. Многочисленные эксперименты показывают, что ZeroSearch эффективно стимулирует поисковые способности LLM, используя 3B LLM в качестве модуля поиска. Примечательно, что 7B модуль поиска демонстрирует сопоставимую производительность с реальной поисковой системой, а 14B модуль даже превосходит её. Кроме того, подход хорошо обобщается как на базовые, так и на настроенные на инструкции модели различных размеров параметров и совместим с широким спектром алгоритмов обучения с подкреплением.
English
Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

Summary

AI-Generated Summary

PDF403May 8, 2025