ChatPaper.aiChatPaper

Search-R1: 강화 학습을 통해 LLM이 추론하고 검색 엔진을 활용하도록 학습시키기

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

March 12, 2025
저자: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
cs.AI

초록

대규모 언어 모델(LLM)에서 효과적인 추론과 텍스트 생성을 위해서는 외부 지식과 최신 정보를 효율적으로 획득하는 것이 필수적입니다. 검색 엔진을 도구로 활용하는 검색 증강 및 도구 사용 훈련 접근법은 복잡한 다중 턴 검색 유연성이 부족하거나 대규모 지도 데이터를 필요로 합니다. 추론 과정에서 고급 LLM에게 검색 엔진을 사용하도록 지시하는 방식은 LLM이 검색 엔진과 최적으로 상호작용하는 방법을 학습하지 못하기 때문에 최적이 아닙니다. 본 논문은 DeepSeek-R1 모델을 확장한 Search-R1을 소개합니다. Search-R1은 강화 학습(RL)만을 통해 LLM이 단계별 추론 과정에서 실시간 검색과 함께 (다중) 검색 쿼리를 자율적으로 생성하도록 학습합니다. Search-R1은 다중 턴 검색 상호작용을 통해 LLM 롤아웃을 최적화하며, 안정적인 RL 훈련을 위해 검색된 토큰 마스킹과 간단한 결과 기반 보상 함수를 활용합니다. 7개의 질의응답 데이터셋에 대한 실험 결과, Search-R1은 SOTA 기준선 대비 Qwen2.5-7B에서 26%, Qwen2.5-3B에서 21%, LLaMA3.2-3B에서 10%의 성능 향상을 보였습니다. 본 논문은 또한 RL 최적화 방법, LLM 선택, 검색 증강 추론에서의 응답 길이 동적 변화에 대한 실증적 통찰을 제공합니다. 코드와 모델 체크포인트는 https://github.com/PeterGriffinJin/Search-R1에서 확인할 수 있습니다.
English
Efficiently acquiring external knowledge and up-to-date information is essential for effective reasoning and text generation in large language models (LLMs). Retrieval augmentation and tool-use training approaches where a search engine is treated as a tool lack complex multi-turn retrieval flexibility or require large-scale supervised data. Prompting advanced LLMs with reasoning capabilities during inference to use search engines is not optimal, since the LLM does not learn how to optimally interact with the search engine. This paper introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM learns -- solely through reinforcement learning (RL) -- to autonomously generate (multiple) search queries during step-by-step reasoning with real-time retrieval. Search-R1 optimizes LLM rollouts with multi-turn search interactions, leveraging retrieved token masking for stable RL training and a simple outcome-based reward function. Experiments on seven question-answering datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21% (Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further provides empirical insights into RL optimization methods, LLM choices, and response length dynamics in retrieval-augmented reasoning. The code and model checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.

Summary

AI-Generated Summary

PDF282March 13, 2025