ZeroSearch : Stimuler la capacité de recherche des LLM sans effectuer de recherche
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Auteurs: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Résumé
La recherche efficace d'informations est essentielle pour améliorer les capacités de raisonnement et de génération des grands modèles de langage (LLMs). Des recherches récentes ont exploré l'utilisation de l'apprentissage par renforcement (RL) pour améliorer les capacités de recherche des LLMs en interagissant avec des moteurs de recherche en temps réel dans des environnements réels. Bien que ces approches montrent des résultats prometteurs, elles rencontrent deux défis majeurs : (1) Qualité incontrôlée des documents : La qualité des documents renvoyés par les moteurs de recherche est souvent imprévisible, introduisant du bruit et de l'instabilité dans le processus d'entraînement. (2) Coûts d'API prohibitifs : L'entraînement par RL nécessite des déploiements fréquents, impliquant potentiellement des centaines de milliers de requêtes de recherche, ce qui engendre des dépenses d'API substantielles et limite fortement la scalabilité. Pour relever ces défis, nous introduisons ZeroSearch, un cadre d'apprentissage par renforcement qui stimule les capacités de recherche des LLMs sans interagir avec de vrais moteurs de recherche. Notre approche commence par un ajustement supervisé léger pour transformer le LLM en un module de recherche capable de générer à la fois des documents pertinents et bruyants en réponse à une requête. Pendant l'entraînement RL, nous utilisons une stratégie de déploiement basée sur un curriculum qui dégrade progressivement la qualité des documents générés, sollicitant de manière progressive la capacité de raisonnement du modèle en l'exposant à des scénarios de recherche de plus en plus difficiles. Des expériences approfondies démontrent que ZeroSearch stimule efficacement les capacités de recherche des LLMs en utilisant un LLM de 3B comme module de recherche. Fait remarquable, un module de recherche de 7B atteint des performances comparables à celles d'un véritable moteur de recherche, tandis qu'un module de 14B les dépasse même. De plus, il généralise bien sur des modèles de base et ajustés par instruction de différentes tailles de paramètres et est compatible avec une large gamme d'algorithmes RL.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.Summary
AI-Generated Summary