ZeroSearch: Incentivizzare le Capacità di Ricerca degli LLM senza Ricerca
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Autori: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Abstract
La ricerca efficace di informazioni è essenziale per migliorare le capacità di ragionamento e generazione dei grandi modelli linguistici (LLM). Ricerche recenti hanno esplorato l'uso dell'apprendimento per rinforzo (RL) per potenziare le capacità di ricerca degli LLM interagendo con motori di ricerca reali in ambienti del mondo reale. Sebbene questi approcci mostrino risultati promettenti, affrontano due sfide principali: (1) Qualità incontrollata dei documenti: la qualità dei documenti restituiti dai motori di ricerca è spesso imprevedibile, introducendo rumore e instabilità nel processo di addestramento. (2) Costi API proibitivamente elevati: l'addestramento RL richiede frequenti rollout, potenzialmente coinvolgendo centinaia di migliaia di richieste di ricerca, che comportano spese API sostanziali e limitano gravemente la scalabilità. Per affrontare queste sfide, introduciamo ZeroSearch, un framework di apprendimento per rinforzo che incentiva le capacità di ricerca degli LLM senza interagire con motori di ricerca reali. Il nostro approccio inizia con un fine-tuning supervisionato leggero per trasformare l'LLM in un modulo di recupero in grado di generare documenti sia rilevanti che rumorosi in risposta a una query. Durante l'addestramento RL, utilizziamo una strategia di rollout basata su un curriculum che degrada gradualmente la qualità dei documenti generati, stimolando progressivamente la capacità di ragionamento del modello esponendolo a scenari di recupero sempre più impegnativi. Esperimenti estensivi dimostrano che ZeroSearch incentiva efficacemente le capacità di ricerca degli LLM utilizzando un LLM da 3B come modulo di recupero. Notevolmente, un modulo di recupero da 7B raggiunge prestazioni comparabili al motore di ricerca reale, mentre un modulo da 14B lo supera addirittura. Inoltre, generalizza bene sia sui modelli base che su quelli ottimizzati per istruzioni di varie dimensioni parametriche ed è compatibile con un'ampia gamma di algoritmi RL.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.