SSRL: Самообучающееся обучение с подкреплением
SSRL: Self-Search Reinforcement Learning
August 14, 2025
Авторы: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI
Аннотация
Мы исследуем потенциал крупных языковых моделей (LLM) в качестве эффективных симуляторов для задач агентного поиска в обучении с подкреплением (RL), что позволяет снизить зависимость от затратных взаимодействий с внешними поисковыми системами. Для этого мы сначала количественно оцениваем внутреннюю способность LLM к поиску с помощью структурированных запросов и повторяющейся выборки, что мы называем Self-Search. Наши результаты показывают, что LLM демонстрируют сильное масштабирование в зависимости от бюджета на вывод, достигая высоких показателей pass@k на бенчмарках вопросов и ответов, включая сложную задачу BrowseComp. На основе этих наблюдений мы представляем Self-Search RL (SSRL), который улучшает способность LLM к Self-Search за счет форматно- и правил-ориентированных вознаграждений. SSRL позволяет моделям итеративно уточнять использование своих знаний внутренне, без необходимости доступа к внешним инструментам. Эмпирические оценки показывают, что модели политик, обученные с помощью SSRL, предоставляют экономически эффективную и стабильную среду для обучения RL, основанного на поиске, снижая зависимость от внешних поисковых систем и способствуя устойчивому переносу из симуляции в реальность. Мы делаем следующие выводы: 1) LLM обладают знаниями о мире, которые можно эффективно использовать для достижения высокой производительности; 2) SSRL демонстрирует потенциал использования внутренних знаний для снижения галлюцинаций; 3) модели, обученные с помощью SSRL, легко интегрируются с внешними поисковыми системами без дополнительных усилий. Наши результаты подчеркивают потенциал LLM для поддержки более масштабируемого обучения RL-агентов.
English
We investigate the potential of large language models (LLMs) to serve as
efficient simulators for agentic search tasks in reinforcement learning (RL),
thereby reducing dependence on costly interactions with external search
engines. To this end, we first quantify the intrinsic search capability of LLMs
via structured prompting and repeated sampling, which we term Self-Search. Our
results reveal that LLMs exhibit strong scaling behavior with respect to the
inference budget, achieving high pass@k on question-answering benchmarks,
including the challenging BrowseComp task. Building on these observations, we
introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability
through format-based and rule-based rewards. SSRL enables models to iteratively
refine their knowledge utilization internally, without requiring access to
external tools. Empirical evaluations demonstrate that SSRL-trained policy
models provide a cost-effective and stable environment for search-driven RL
training, reducing reliance on external search engines and facilitating robust
sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world
knowledge that can be effectively elicited to achieve high performance; 2) SSRL
demonstrates the potential of leveraging internal knowledge to reduce
hallucination; 3) SSRL-trained models integrate seamlessly with external search
engines without additional effort. Our findings highlight the potential of LLMs
to support more scalable RL agent training.