ZeroSearch: Incentivizzare le Capacità di Ricerca degli LLM senza Ricerca

Abstract

La ricerca efficace di informazioni è essenziale per migliorare le capacità di ragionamento e generazione dei grandi modelli linguistici (LLM). Ricerche recenti hanno esplorato l'uso dell'apprendimento per rinforzo (RL) per potenziare le capacità di ricerca degli LLM interagendo con motori di ricerca reali in ambienti del mondo reale. Sebbene questi approcci mostrino risultati promettenti, affrontano due sfide principali: (1) Qualità incontrollata dei documenti: la qualità dei documenti restituiti dai motori di ricerca è spesso imprevedibile, introducendo rumore e instabilità nel processo di addestramento. (2) Costi API proibitivamente elevati: l'addestramento RL richiede frequenti rollout, potenzialmente coinvolgendo centinaia di migliaia di richieste di ricerca, che comportano spese API sostanziali e limitano gravemente la scalabilità. Per affrontare queste sfide, introduciamo ZeroSearch, un framework di apprendimento per rinforzo che incentiva le capacità di ricerca degli LLM senza interagire con motori di ricerca reali. Il nostro approccio inizia con un fine-tuning supervisionato leggero per trasformare l'LLM in un modulo di recupero in grado di generare documenti sia rilevanti che rumorosi in risposta a una query. Durante l'addestramento RL, utilizziamo una strategia di rollout basata su un curriculum che degrada gradualmente la qualità dei documenti generati, stimolando progressivamente la capacità di ragionamento del modello esponendolo a scenari di recupero sempre più impegnativi. Esperimenti estensivi dimostrano che ZeroSearch incentiva efficacemente le capacità di ricerca degli LLM utilizzando un LLM da 3B come modulo di recupero. Notevolmente, un modulo di recupero da 7B raggiunge prestazioni comparabili al motore di ricerca reale, mentre un modulo da 14B lo supera addirittura. Inoltre, generalizza bene sia sui modelli base che su quelli ottimizzati per istruzioni di varie dimensioni parametriche ed è compatibile con un'ampia gamma di algoritmi RL.

English

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

ZeroSearch: Incentivizzare le Capacità di Ricerca degli LLM senza Ricerca

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Abstract

Support