Search-R1: Het trainen van LLM's om te redeneren en zoekmachines te benutten met reinforcement learning
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
March 12, 2025
Auteurs: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
cs.AI
Samenvatting
Het efficiënt verwerven van externe kennis en actuele informatie is essentieel voor effectief redeneren en tekstgeneratie in grote taalmodellen (LLM's). Retrieval-augmentatie en tool-use trainingsbenaderingen, waarbij een zoekmachine als een tool wordt behandeld, missen complexe flexibiliteit voor meerdaagse retrieval of vereisen grootschalige begeleide data. Het aansturen van geavanceerde LLM's met redeneervaardigheden tijdens inferentie om zoekmachines te gebruiken is niet optimaal, omdat het LLM niet leert hoe het optimaal kan interacteren met de zoekmachine. Dit artikel introduceert Search-R1, een uitbreiding van het DeepSeek-R1 model waarbij het LLM – uitsluitend door middel van reinforcement learning (RL) – leert om autonoom (meerdere) zoekopdrachten te genereren tijdens stapsgewijs redeneren met real-time retrieval. Search-R1 optimaliseert LLM-rollouts met meerdaagse zoekinteracties, waarbij gebruik wordt gemaakt van retrieved token masking voor stabiele RL-training en een eenvoudige outcome-based beloningsfunctie. Experimenten op zeven vraag-antwoord datasets laten zien dat Search-R1 de prestaties verbetert met 26% (Qwen2.5-7B), 21% (Qwen2.5-3B), en 10% (LLaMA3.2-3B) ten opzichte van SOTA-baselines. Dit artikel biedt verder empirische inzichten in RL-optimalisatiemethoden, LLM-keuzes en dynamiek van responslengte in retrieval-augmented redeneren. De code en modelcheckpoints zijn beschikbaar op https://github.com/PeterGriffinJin/Search-R1.
English
Efficiently acquiring external knowledge and up-to-date information is
essential for effective reasoning and text generation in large language models
(LLMs). Retrieval augmentation and tool-use training approaches where a search
engine is treated as a tool lack complex multi-turn retrieval flexibility or
require large-scale supervised data. Prompting advanced LLMs with reasoning
capabilities during inference to use search engines is not optimal, since the
LLM does not learn how to optimally interact with the search engine. This paper
introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM
learns -- solely through reinforcement learning (RL) -- to autonomously
generate (multiple) search queries during step-by-step reasoning with real-time
retrieval. Search-R1 optimizes LLM rollouts with multi-turn search
interactions, leveraging retrieved token masking for stable RL training and a
simple outcome-based reward function. Experiments on seven question-answering
datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21%
(Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further
provides empirical insights into RL optimization methods, LLM choices, and
response length dynamics in retrieval-augmented reasoning. The code and model
checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.Summary
AI-Generated Summary