ZeroSearch: Stimuleer de zoekcapaciteit van LLM's zonder te zoeken

Samenvatting

Effectief zoeken naar informatie is essentieel voor het verbeteren van de redeneer- en generatiecapaciteiten van grote taalmodellen (LLMs). Recent onderzoek heeft verkend hoe reinforcement learning (RL) kan worden gebruikt om de zoekcapaciteiten van LLMs te verbeteren door interactie met live zoekmachines in real-world omgevingen. Hoewel deze benaderingen veelbelovende resultaten laten zien, worden ze geconfronteerd met twee grote uitdagingen: (1) Ongecontroleerde documentkwaliteit: De kwaliteit van documenten die door zoekmachines worden geretourneerd, is vaak onvoorspelbaar, wat ruis en instabiliteit introduceert in het trainingsproces. (2) Extreem hoge API-kosten: RL-training vereist frequente rollouts, wat mogelijk honderdduizenden zoekverzoeken omvat, wat aanzienlijke API-kosten met zich meebrengt en de schaalbaarheid ernstig beperkt. Om deze uitdagingen aan te pakken, introduceren we ZeroSearch, een reinforcement learning-framework dat de zoekcapaciteiten van LLMs stimuleert zonder interactie met echte zoekmachines. Onze aanpak begint met lichtgewicht supervised fine-tuning om het LLM om te vormen tot een retrievemodule die zowel relevante als ruisachtige documenten kan genereren in reactie op een query. Tijdens de RL-training gebruiken we een curriculum-gebaseerde rollout-strategie die de kwaliteit van gegenereerde documenten geleidelijk degradeert, waardoor het redeneervermogen van het model progressief wordt gestimuleerd door het bloot te stellen aan steeds uitdagendere retrievalscenario's. Uitgebreide experimenten tonen aan dat ZeroSearch de zoekcapaciteiten van LLMs effectief stimuleert met behulp van een 3B LLM als retrievemodule. Opmerkelijk is dat een 7B retrievemodule vergelijkbare prestaties behaalt als de echte zoekmachine, terwijl een 14B retrievemodule deze zelfs overtreft. Bovendien generaliseert het goed over zowel basis- als instructie-getrainde modellen van verschillende parametergroottes en is het compatibel met een breed scala aan RL-algoritmen.

English

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

ZeroSearch: Stimuleer de zoekcapaciteit van LLM's zonder te zoeken

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Samenvatting

Support