ChatPaper.aiChatPaper

SSRL: Apprendimento per Rinforzo con Auto-Ricerca

SSRL: Self-Search Reinforcement Learning

August 14, 2025
Autori: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI

Abstract

Investighiamo il potenziale dei grandi modelli linguistici (LLM) di fungere da simulatori efficienti per compiti di ricerca agentica nell'apprendimento per rinforzo (RL), riducendo così la dipendenza da costose interazioni con motori di ricerca esterni. A tal fine, quantifichiamo innanzitutto la capacità intrinseca di ricerca degli LLM attraverso prompt strutturati e campionamenti ripetuti, un approccio che definiamo Self-Search. I nostri risultati rivelano che gli LLM mostrano un forte comportamento di scalabilità rispetto al budget di inferenza, raggiungendo elevati valori di pass@k su benchmark di risposta a domande, incluso il complesso task BrowseComp. Sulla base di queste osservazioni, introduciamo Self-Search RL (SSRL), che potenzia la capacità di Self-Search degli LLM attraverso ricompense basate su formati e regole. SSRL consente ai modelli di affinare iterativamente l'utilizzo delle proprie conoscenze internamente, senza richiedere l'accesso a strumenti esterni. Valutazioni empiriche dimostrano che i modelli di policy addestrati con SSRL forniscono un ambiente economico e stabile per l'addestramento RL guidato dalla ricerca, riducendo la dipendenza da motori di ricerca esterni e facilitando un robusto trasferimento da simulazione a realtà. Traiamo le seguenti conclusioni: 1) Gli LLM possiedono conoscenze del mondo che possono essere efficacemente elicitare per ottenere alte prestazioni; 2) SSRL dimostra il potenziale di sfruttare le conoscenze interne per ridurre l'allucinazione; 3) I modelli addestrati con SSRL si integrano perfettamente con motori di ricerca esterni senza sforzi aggiuntivi. I nostri risultati evidenziano il potenziale degli LLM di supportare un addestramento più scalabile degli agenti RL.
English
We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.
PDF944August 18, 2025