ChatPaper.aiChatPaper

SSRL : Apprentissage par Renforcement par Auto-Recherche

SSRL: Self-Search Reinforcement Learning

August 14, 2025
papers.authors: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI

papers.abstract

Nous étudions le potentiel des grands modèles de langage (LLMs) à servir de simulateurs efficaces pour les tâches de recherche agentique en apprentissage par renforcement (RL), réduisant ainsi la dépendance aux interactions coûteuses avec des moteurs de recherche externes. Pour ce faire, nous quantifions d'abord la capacité de recherche intrinsèque des LLMs via des prompts structurés et un échantillonnage répété, une approche que nous nommons Self-Search. Nos résultats révèlent que les LLMs présentent un comportement de mise à l'échelle robuste par rapport au budget d'inférence, atteignant des scores élevés en pass@k sur des benchmarks de questions-réponses, y compris la tâche difficile BrowseComp. Sur la base de ces observations, nous introduisons Self-Search RL (SSRL), qui améliore la capacité de Self-Search des LLMs grâce à des récompenses basées sur le format et des règles. SSRL permet aux modèles d'affiner itérativement leur utilisation des connaissances en interne, sans nécessiter d'accès à des outils externes. Les évaluations empiriques démontrent que les modèles de politique entraînés par SSRL fournissent un environnement rentable et stable pour l'entraînement RL axé sur la recherche, réduisant la dépendance aux moteurs de recherche externes et facilitant un transfert robuste du simulé au réel. Nous tirons les conclusions suivantes : 1) Les LLMs possèdent des connaissances du monde qui peuvent être efficacement sollicitées pour atteindre des performances élevées ; 2) SSRL démontre le potentiel d'exploitation des connaissances internes pour réduire les hallucinations ; 3) Les modèles entraînés par SSRL s'intègrent de manière transparente avec les moteurs de recherche externes sans effort supplémentaire. Nos résultats mettent en lumière le potentiel des LLMs à soutenir un entraînement plus évolutif des agents RL.
English
We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.
PDF764August 18, 2025