SSRL: Selbstsuchende Verstärkungslernverfahren
SSRL: Self-Search Reinforcement Learning
August 14, 2025
papers.authors: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI
papers.abstract
Wir untersuchen das Potenzial großer Sprachmodelle (LLMs), als effiziente Simulatoren für agentenbasierte Suchaufgaben im Reinforcement Learning (RL) zu dienen und dadurch die Abhängigkeit von kostspieligen Interaktionen mit externen Suchmaschinen zu verringern. Zu diesem Zweck quantifizieren wir zunächst die intrinsische Suchfähigkeit von LLMs durch strukturierte Prompting und wiederholtes Sampling, was wir als Self-Search bezeichnen. Unsere Ergebnisse zeigen, dass LLMs ein starkes Skalierungsverhalten in Bezug auf das Inferenzbudget aufweisen und hohe Pass@k-Werte auf Frage-Antwort-Benchmarks erreichen, einschließlich der anspruchsvollen BrowseComp-Aufgabe. Aufbauend auf diesen Beobachtungen führen wir Self-Search RL (SSRL) ein, das die Self-Search-Fähigkeit von LLMs durch formatbasierte und regelbasierte Belohnungen verbessert. SSRL ermöglicht es Modellen, ihre Wissensnutzung intern iterativ zu verfeinern, ohne auf externe Tools zugreifen zu müssen. Empirische Auswertungen zeigen, dass mit SSRL trainierte Policy-Modelle eine kosteneffiziente und stabile Umgebung für suchgetriebenes RL-Training bieten, die Abhängigkeit von externen Suchmaschinen verringern und einen robusten Sim-to-Real-Transfer erleichtern. Wir ziehen folgende Schlussfolgerungen: 1) LLMs verfügen über Weltwissen, das effektiv abgerufen werden kann, um hohe Leistung zu erzielen; 2) SSRL zeigt das Potenzial, internes Wissen zu nutzen, um Halluzinationen zu reduzieren; 3) Mit SSRL trainierte Modelle integrieren sich nahtlos mit externen Suchmaschinen, ohne zusätzlichen Aufwand. Unsere Ergebnisse unterstreichen das Potenzial von LLMs, ein skalierbareres Training von RL-Agenten zu unterstützen.
English
We investigate the potential of large language models (LLMs) to serve as
efficient simulators for agentic search tasks in reinforcement learning (RL),
thereby reducing dependence on costly interactions with external search
engines. To this end, we first quantify the intrinsic search capability of LLMs
via structured prompting and repeated sampling, which we term Self-Search. Our
results reveal that LLMs exhibit strong scaling behavior with respect to the
inference budget, achieving high pass@k on question-answering benchmarks,
including the challenging BrowseComp task. Building on these observations, we
introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability
through format-based and rule-based rewards. SSRL enables models to iteratively
refine their knowledge utilization internally, without requiring access to
external tools. Empirical evaluations demonstrate that SSRL-trained policy
models provide a cost-effective and stable environment for search-driven RL
training, reducing reliance on external search engines and facilitating robust
sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world
knowledge that can be effectively elicited to achieve high performance; 2) SSRL
demonstrates the potential of leveraging internal knowledge to reduce
hallucination; 3) SSRL-trained models integrate seamlessly with external search
engines without additional effort. Our findings highlight the potential of LLMs
to support more scalable RL agent training.