ReSearch: 강화 학습을 통한 검색 기반 LLM 추론 학습
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
March 25, 2025
저자: Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
cs.AI
초록
대규모 언어 모델(LLM)은 OpenAI-o1과 DeepSeek-R1의 성공 사례에서 볼 수 있듯이, 추론 능력에서 뛰어난 성과를 보여주고 있습니다. 그러나 외부 검색 프로세스와의 추론 통합은 여전히 어려운 과제로 남아 있으며, 특히 여러 단계의 검색이 필요한 복잡한 다중 홉(multi-hop) 질문의 경우 더욱 그러합니다. 우리는 ReSearch라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 지도 데이터 없이 강화 학습을 통해 LLM이 검색과 함께 추론하도록 훈련시킵니다. 우리의 접근 방식은 검색 작업을 추론 체인의 필수 구성 요소로 간주하며, 언제 그리고 어떻게 검색을 수행할지는 텍스트 기반 사고에 의해 안내되고, 검색 결과는 이후의 추론에 영향을 미칩니다. 우리는 Qwen2.5-7B(-Instruct)와 Qwen2.5-32B(-Instruct) 모델에 ReSearch를 훈련시키고 다양한 실험을 수행했습니다. 단 하나의 데이터셋으로만 훈련되었음에도 불구하고, 우리의 모델은 다양한 벤치마크에서 강력한 일반화 능력을 보여주었습니다. 분석 결과, ReSearch는 강화 학습 과정 중에 반성(reflection)과 자기 수정(self-correction)과 같은 고급 추론 능력을 자연스럽게 이끌어냄을 확인할 수 있었습니다.
English
Large Language Models (LLMs) have shown remarkable capabilities in reasoning,
exemplified by the success of OpenAI-o1 and DeepSeek-R1. However, integrating
reasoning with external search processes remains challenging, especially for
complex multi-hop questions requiring multiple retrieval steps. We propose
ReSearch, a novel framework that trains LLMs to Reason with Search via
reinforcement learning without using any supervised data on reasoning steps.
Our approach treats search operations as integral components of the reasoning
chain, where when and how to perform searches is guided by text-based thinking,
and search results subsequently influence further reasoning. We train ReSearch
on Qwen2.5-7B(-Instruct) and Qwen2.5-32B(-Instruct) models and conduct
extensive experiments. Despite being trained on only one dataset, our models
demonstrate strong generalizability across various benchmarks. Analysis reveals
that ReSearch naturally elicits advanced reasoning capabilities such as
reflection and self-correction during the reinforcement learning process.Summary
AI-Generated Summary