Search-R1: Обучение больших языковых моделей рассуждению и использованию поисковых систем с помощью обучения с подкреплением
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
March 12, 2025
Авторы: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
cs.AI
Аннотация
Эффективное получение внешних знаний и актуальной информации имеет решающее значение для качественного рассуждения и генерации текста в больших языковых моделях (LLM). Подходы, основанные на расширении с помощью поиска и обучении использованию инструментов, где поисковая система рассматривается как инструмент, либо не обладают гибкостью для сложного многошагового поиска, либо требуют больших объемов размеченных данных. Использование продвинутых LLM с возможностями рассуждения для взаимодействия с поисковыми системами во время вывода не является оптимальным, поскольку модель не обучается оптимальному взаимодействию с поисковой системой. В данной статье представлена модель Search-R1, расширение модели DeepSeek-R1, где LLM обучается — исключительно с помощью обучения с подкреплением (RL) — автономно генерировать (несколько) поисковых запросов в процессе пошагового рассуждения с реальным поиском. Search-R1 оптимизирует выполнение LLM с многошаговым поисковым взаимодействием, используя маскирование извлеченных токенов для стабильного обучения RL и простую функцию вознаграждения, основанную на результатах. Эксперименты на семи наборах данных для ответов на вопросы показывают, что Search-R1 улучшает производительность на 26% (Qwen2.5-7B), 21% (Qwen2.5-3B) и 10% (LLaMA3.2-3B) по сравнению с современными базовыми моделями. В статье также представлены эмпирические данные о методах оптимизации RL, выборе LLM и динамике длины ответов в рассуждениях, дополненных поиском. Код и контрольные точки модели доступны по адресу https://github.com/PeterGriffinJin/Search-R1.
English
Efficiently acquiring external knowledge and up-to-date information is
essential for effective reasoning and text generation in large language models
(LLMs). Retrieval augmentation and tool-use training approaches where a search
engine is treated as a tool lack complex multi-turn retrieval flexibility or
require large-scale supervised data. Prompting advanced LLMs with reasoning
capabilities during inference to use search engines is not optimal, since the
LLM does not learn how to optimally interact with the search engine. This paper
introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM
learns -- solely through reinforcement learning (RL) -- to autonomously
generate (multiple) search queries during step-by-step reasoning with real-time
retrieval. Search-R1 optimizes LLM rollouts with multi-turn search
interactions, leveraging retrieved token masking for stable RL training and a
simple outcome-based reward function. Experiments on seven question-answering
datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21%
(Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further
provides empirical insights into RL optimization methods, LLM choices, and
response length dynamics in retrieval-augmented reasoning. The code and model
checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.Summary
AI-Generated Summary