ZeroSearch: Stimuleer de zoekcapaciteit van LLM's zonder te zoeken
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Auteurs: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Samenvatting
Effectief zoeken naar informatie is essentieel voor het verbeteren van de redeneer- en generatiecapaciteiten van grote taalmodellen (LLMs). Recent onderzoek heeft verkend hoe reinforcement learning (RL) kan worden gebruikt om de zoekcapaciteiten van LLMs te verbeteren door interactie met live zoekmachines in real-world omgevingen. Hoewel deze benaderingen veelbelovende resultaten laten zien, worden ze geconfronteerd met twee grote uitdagingen: (1) Ongecontroleerde documentkwaliteit: De kwaliteit van documenten die door zoekmachines worden geretourneerd, is vaak onvoorspelbaar, wat ruis en instabiliteit introduceert in het trainingsproces. (2) Extreem hoge API-kosten: RL-training vereist frequente rollouts, wat mogelijk honderdduizenden zoekverzoeken omvat, wat aanzienlijke API-kosten met zich meebrengt en de schaalbaarheid ernstig beperkt. Om deze uitdagingen aan te pakken, introduceren we ZeroSearch, een reinforcement learning-framework dat de zoekcapaciteiten van LLMs stimuleert zonder interactie met echte zoekmachines. Onze aanpak begint met lichtgewicht supervised fine-tuning om het LLM om te vormen tot een retrievemodule die zowel relevante als ruisachtige documenten kan genereren in reactie op een query. Tijdens de RL-training gebruiken we een curriculum-gebaseerde rollout-strategie die de kwaliteit van gegenereerde documenten geleidelijk degradeert, waardoor het redeneervermogen van het model progressief wordt gestimuleerd door het bloot te stellen aan steeds uitdagendere retrievalscenario's. Uitgebreide experimenten tonen aan dat ZeroSearch de zoekcapaciteiten van LLMs effectief stimuleert met behulp van een 3B LLM als retrievemodule. Opmerkelijk is dat een 7B retrievemodule vergelijkbare prestaties behaalt als de echte zoekmachine, terwijl een 14B retrievemodule deze zelfs overtreft. Bovendien generaliseert het goed over zowel basis- als instructie-getrainde modellen van verschillende parametergroottes en is het compatibel met een breed scala aan RL-algoritmen.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.