ZeroSearch: Förderung der Suchfähigkeit von LLMs ohne Suche

Zusammenfassung

Effektive Informationssuche ist entscheidend, um die Fähigkeiten großer Sprachmodelle (LLMs) in Bezug auf Schlussfolgerungen und Generierung zu verbessern. Aktuelle Forschungen haben untersucht, wie Verstärkungslernen (Reinforcement Learning, RL) genutzt werden kann, um die Suchfähigkeiten von LLMs durch die Interaktion mit Live-Suchmaschinen in realen Umgebungen zu steigern. Obwohl diese Ansätze vielversprechende Ergebnisse zeigen, stehen sie vor zwei großen Herausforderungen: (1) Unkontrollierte Dokumentqualität: Die Qualität der von Suchmaschinen zurückgegebenen Dokumente ist oft unvorhersehbar, was Rauschen und Instabilität in den Trainingsprozess einführt. (2) Prohibitiv hohe API-Kosten: RL-Training erfordert häufige Rollouts, die potenziell Hunderttausende von Suchanfragen umfassen können, was erhebliche API-Kosten verursacht und die Skalierbarkeit stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir ZeroSearch vor, ein Reinforcement-Learning-Framework, das die Suchfähigkeiten von LLMs fördert, ohne mit echten Suchmaschinen zu interagieren. Unser Ansatz beginnt mit einem leichtgewichtigen, überwachten Feinabgleich, um das LLM in ein Retrieval-Modul zu verwandeln, das sowohl relevante als auch verrauschte Dokumente als Antwort auf eine Anfrage generieren kann. Während des RL-Trainings verwenden wir eine curriculum-basierte Rollout-Strategie, die die Qualität der generierten Dokumente schrittweise verschlechtert und so die Fähigkeit des Modells zur Schlussfolgerung allmählich fördert, indem es zunehmend anspruchsvollen Retrieval-Szenarien ausgesetzt wird. Umfangreiche Experimente zeigen, dass ZeroSearch die Suchfähigkeiten von LLMs effektiv fördert, wobei ein 3B-LLM als Retrieval-Modul verwendet wird. Bemerkenswerterweise erreicht ein 7B-Retrieval-Modul eine vergleichbare Leistung wie eine echte Suchmaschine, während ein 14B-Retrieval-Modul diese sogar übertrifft. Darüber hinaus generalisiert es gut über Basis- und instruktionsfeinabgestimmte Modelle verschiedener Parametergrößen hinweg und ist mit einer Vielzahl von RL-Algorithmen kompatibel.

English

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

ZeroSearch: Förderung der Suchfähigkeit von LLMs ohne Suche

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Zusammenfassung

Support