ChatPaper.aiChatPaper

ZeroSearch : Stimuler la capacité de recherche des LLM sans effectuer de recherche

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7, 2025
Auteurs: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI

Résumé

La recherche efficace d'informations est essentielle pour améliorer les capacités de raisonnement et de génération des grands modèles de langage (LLMs). Des recherches récentes ont exploré l'utilisation de l'apprentissage par renforcement (RL) pour améliorer les capacités de recherche des LLMs en interagissant avec des moteurs de recherche en temps réel dans des environnements réels. Bien que ces approches montrent des résultats prometteurs, elles rencontrent deux défis majeurs : (1) Qualité incontrôlée des documents : La qualité des documents renvoyés par les moteurs de recherche est souvent imprévisible, introduisant du bruit et de l'instabilité dans le processus d'entraînement. (2) Coûts d'API prohibitifs : L'entraînement par RL nécessite des déploiements fréquents, impliquant potentiellement des centaines de milliers de requêtes de recherche, ce qui engendre des dépenses d'API substantielles et limite fortement la scalabilité. Pour relever ces défis, nous introduisons ZeroSearch, un cadre d'apprentissage par renforcement qui stimule les capacités de recherche des LLMs sans interagir avec de vrais moteurs de recherche. Notre approche commence par un ajustement supervisé léger pour transformer le LLM en un module de recherche capable de générer à la fois des documents pertinents et bruyants en réponse à une requête. Pendant l'entraînement RL, nous utilisons une stratégie de déploiement basée sur un curriculum qui dégrade progressivement la qualité des documents générés, sollicitant de manière progressive la capacité de raisonnement du modèle en l'exposant à des scénarios de recherche de plus en plus difficiles. Des expériences approfondies démontrent que ZeroSearch stimule efficacement les capacités de recherche des LLMs en utilisant un LLM de 3B comme module de recherche. Fait remarquable, un module de recherche de 7B atteint des performances comparables à celles d'un véritable moteur de recherche, tandis qu'un module de 14B les dépasse même. De plus, il généralise bien sur des modèles de base et ajustés par instruction de différentes tailles de paramètres et est compatible avec une large gamme d'algorithmes RL.
English
Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

Summary

AI-Generated Summary

PDF403May 8, 2025