Search-R1 : Entraînement des LLM à raisonner et à exploiter les moteurs de recherche grâce à l'apprentissage par renforcement
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
March 12, 2025
Auteurs: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
cs.AI
Résumé
L'acquisition efficace de connaissances externes et d'informations à jour est essentielle pour un raisonnement et une génération de texte efficaces dans les grands modèles de langage (LLM). Les approches d'augmentation par recherche et de formation à l'utilisation d'outils, où un moteur de recherche est traité comme un outil, manquent de flexibilité pour des recherches multi-tours complexes ou nécessitent des données supervisées à grande échelle. Inciter des LLM avancés dotés de capacités de raisonnement à utiliser des moteurs de recherche lors de l'inférence n'est pas optimal, car le LLM n'apprend pas à interagir de manière optimale avec le moteur de recherche. Ce papier présente Search-R1, une extension du modèle DeepSeek-R1 où le LLM apprend — uniquement par apprentissage par renforcement (RL) — à générer de manière autonome (plusieurs) requêtes de recherche lors d'un raisonnement étape par étape avec une récupération en temps réel. Search-R1 optimise les déploiements de LLM avec des interactions de recherche multi-tours, en exploitant le masquage des tokens récupérés pour un entraînement RL stable et une fonction de récompense simple basée sur les résultats. Les expériences sur sept ensembles de données de questions-réponses montrent que Search-R1 améliore les performances de 26 % (Qwen2.5-7B), 21 % (Qwen2.5-3B) et 10 % (LLaMA3.2-3B) par rapport aux meilleures méthodes de référence. Ce papier fournit également des insights empiriques sur les méthodes d'optimisation RL, les choix de LLM et la dynamique de la longueur des réponses dans le raisonnement augmenté par recherche. Le code et les points de contrôle du modèle sont disponibles à l'adresse https://github.com/PeterGriffinJin/Search-R1.
English
Efficiently acquiring external knowledge and up-to-date information is
essential for effective reasoning and text generation in large language models
(LLMs). Retrieval augmentation and tool-use training approaches where a search
engine is treated as a tool lack complex multi-turn retrieval flexibility or
require large-scale supervised data. Prompting advanced LLMs with reasoning
capabilities during inference to use search engines is not optimal, since the
LLM does not learn how to optimally interact with the search engine. This paper
introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM
learns -- solely through reinforcement learning (RL) -- to autonomously
generate (multiple) search queries during step-by-step reasoning with real-time
retrieval. Search-R1 optimizes LLM rollouts with multi-turn search
interactions, leveraging retrieved token masking for stable RL training and a
simple outcome-based reward function. Experiments on seven question-answering
datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21%
(Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further
provides empirical insights into RL optimization methods, LLM choices, and
response length dynamics in retrieval-augmented reasoning. The code and model
checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.Summary
AI-Generated Summary