SSRL: 자기 탐색 강화 학습
SSRL: Self-Search Reinforcement Learning
August 14, 2025
저자: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI
초록
본 연구에서는 대규모 언어 모델(LLM)이 강화 학습(RL)에서 에이전트 탐색 작업을 위한 효율적인 시뮬레이터로 활용될 가능성을 탐구함으로써, 외부 검색 엔진과의 비용이 많이 드는 상호작용에 대한 의존도를 줄이는 방안을 제시한다. 이를 위해 먼저 구조화된 프롬프팅과 반복 샘플링을 통해 LLM의 내재적 탐색 능력을 정량화하였으며, 이를 Self-Search로 명명하였다. 실험 결과, LLM은 추론 예산에 대해 강력한 스케일링 행동을 보이며, 특히 BrowseComp와 같은 도전적인 질의응답 벤치마크에서 높은 pass@k 성능을 달성함을 확인하였다. 이러한 관찰을 바탕으로, 형식 기반 및 규칙 기반 보상을 통해 LLM의 Self-Search 능력을 강화한 Self-Search RL(SSRL)을 제안한다. SSRL은 외부 도구에 대한 접근 없이도 모델이 내부적으로 지식 활용을 반복적으로 개선할 수 있도록 한다. 실증적 평가 결과, SSRL로 훈련된 정책 모델은 검색 기반 RL 훈련을 위한 비용 효율적이고 안정적인 환경을 제공하며, 외부 검색 엔진에 대한 의존도를 줄이고 견고한 시뮬레이션-실제 전이를 가능하게 한다. 본 연구는 다음과 같은 결론을 도출하였다: 1) LLM은 고성능 달성을 위해 효과적으로 활용될 수 있는 세계 지식을 보유하고 있다; 2) SSRL은 내부 지식을 활용하여 환각 현상을 줄일 수 있는 잠재력을 보여준다; 3) SSRL로 훈련된 모델은 추가적인 노력 없이도 외부 검색 엔진과 원활하게 통합된다. 본 연구 결과는 LLM이 확장 가능한 RL 에이전트 훈련을 지원할 수 있는 잠재력을 강조한다.
English
We investigate the potential of large language models (LLMs) to serve as
efficient simulators for agentic search tasks in reinforcement learning (RL),
thereby reducing dependence on costly interactions with external search
engines. To this end, we first quantify the intrinsic search capability of LLMs
via structured prompting and repeated sampling, which we term Self-Search. Our
results reveal that LLMs exhibit strong scaling behavior with respect to the
inference budget, achieving high pass@k on question-answering benchmarks,
including the challenging BrowseComp task. Building on these observations, we
introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability
through format-based and rule-based rewards. SSRL enables models to iteratively
refine their knowledge utilization internally, without requiring access to
external tools. Empirical evaluations demonstrate that SSRL-trained policy
models provide a cost-effective and stable environment for search-driven RL
training, reducing reliance on external search engines and facilitating robust
sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world
knowledge that can be effectively elicited to achieve high performance; 2) SSRL
demonstrates the potential of leveraging internal knowledge to reduce
hallucination; 3) SSRL-trained models integrate seamlessly with external search
engines without additional effort. Our findings highlight the potential of LLMs
to support more scalable RL agent training.