ChatPaper.aiChatPaper

SSRL: Zelfzoekende Versterkingsleren

SSRL: Self-Search Reinforcement Learning

August 14, 2025
Auteurs: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI

Samenvatting

We onderzoeken het potentieel van grote taalmodellen (LLMs) om te dienen als efficiënte simulatoren voor agent-gerichte zoektaken in reinforcement learning (RL), waardoor de afhankelijkheid van kostbare interacties met externe zoekmachines wordt verminderd. Hiertoe kwantificeren we eerst de intrinsieke zoekcapaciteit van LLMs via gestructureerde prompting en herhaalde bemonstering, wat we Self-Search noemen. Onze resultaten laten zien dat LLMs een sterke schaalbaarheid vertonen ten opzichte van het inferentiebudget, waarbij hoge pass@k-scores worden behaald op vraag-antwoordbenchmarks, inclusief de uitdagende BrowseComp-taak. Op basis van deze observaties introduceren we Self-Search RL (SSRL), dat de Self-Search-capaciteit van LLMs verbetert via op formaat en regels gebaseerde beloningen. SSRL stelt modellen in staat om hun kennisgebruik intern iteratief te verfijnen, zonder toegang tot externe tools nodig te hebben. Empirische evaluaties tonen aan dat met SSRL getrainde beleidsmodellen een kosteneffectieve en stabiele omgeving bieden voor zoekgedreven RL-training, waardoor de afhankelijkheid van externe zoekmachines wordt verminderd en robuuste sim-naar-real transfer wordt gefaciliteerd. We trekken de volgende conclusies: 1) LLMs beschikken over wereldkennis die effectief kan worden benut om hoge prestaties te bereiken; 2) SSRL toont het potentieel aan van het benutten van interne kennis om hallucinatie te verminderen; 3) met SSRL getrainde modellen integreren naadloos met externe zoekmachines zonder extra inspanning. Onze bevindingen benadrukken het potentieel van LLMs om meer schaalbare RL-agenttraining te ondersteunen.
English
We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.
PDF944August 18, 2025