ZeroSearch: Förderung der Suchfähigkeit von LLMs ohne Suche
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Autoren: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Zusammenfassung
Effektive Informationssuche ist entscheidend, um die Fähigkeiten großer Sprachmodelle (LLMs) in Bezug auf Schlussfolgerungen und Generierung zu verbessern. Aktuelle Forschungen haben untersucht, wie Verstärkungslernen (Reinforcement Learning, RL) genutzt werden kann, um die Suchfähigkeiten von LLMs durch die Interaktion mit Live-Suchmaschinen in realen Umgebungen zu steigern. Obwohl diese Ansätze vielversprechende Ergebnisse zeigen, stehen sie vor zwei großen Herausforderungen: (1) Unkontrollierte Dokumentqualität: Die Qualität der von Suchmaschinen zurückgegebenen Dokumente ist oft unvorhersehbar, was Rauschen und Instabilität in den Trainingsprozess einführt. (2) Prohibitiv hohe API-Kosten: RL-Training erfordert häufige Rollouts, die potenziell Hunderttausende von Suchanfragen umfassen können, was erhebliche API-Kosten verursacht und die Skalierbarkeit stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir ZeroSearch vor, ein Reinforcement-Learning-Framework, das die Suchfähigkeiten von LLMs fördert, ohne mit echten Suchmaschinen zu interagieren. Unser Ansatz beginnt mit einem leichtgewichtigen, überwachten Feinabgleich, um das LLM in ein Retrieval-Modul zu verwandeln, das sowohl relevante als auch verrauschte Dokumente als Antwort auf eine Anfrage generieren kann. Während des RL-Trainings verwenden wir eine curriculum-basierte Rollout-Strategie, die die Qualität der generierten Dokumente schrittweise verschlechtert und so die Fähigkeit des Modells zur Schlussfolgerung allmählich fördert, indem es zunehmend anspruchsvollen Retrieval-Szenarien ausgesetzt wird. Umfangreiche Experimente zeigen, dass ZeroSearch die Suchfähigkeiten von LLMs effektiv fördert, wobei ein 3B-LLM als Retrieval-Modul verwendet wird. Bemerkenswerterweise erreicht ein 7B-Retrieval-Modul eine vergleichbare Leistung wie eine echte Suchmaschine, während ein 14B-Retrieval-Modul diese sogar übertrifft. Darüber hinaus generalisiert es gut über Basis- und instruktionsfeinabgestimmte Modelle verschiedener Parametergrößen hinweg und ist mit einer Vielzahl von RL-Algorithmen kompatibel.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.Summary
AI-Generated Summary