SSRL: Самообучающееся обучение с подкреплением

Аннотация

Мы исследуем потенциал крупных языковых моделей (LLM) в качестве эффективных симуляторов для задач агентного поиска в обучении с подкреплением (RL), что позволяет снизить зависимость от затратных взаимодействий с внешними поисковыми системами. Для этого мы сначала количественно оцениваем внутреннюю способность LLM к поиску с помощью структурированных запросов и повторяющейся выборки, что мы называем Self-Search. Наши результаты показывают, что LLM демонстрируют сильное масштабирование в зависимости от бюджета на вывод, достигая высоких показателей pass@k на бенчмарках вопросов и ответов, включая сложную задачу BrowseComp. На основе этих наблюдений мы представляем Self-Search RL (SSRL), который улучшает способность LLM к Self-Search за счет форматно- и правил-ориентированных вознаграждений. SSRL позволяет моделям итеративно уточнять использование своих знаний внутренне, без необходимости доступа к внешним инструментам. Эмпирические оценки показывают, что модели политик, обученные с помощью SSRL, предоставляют экономически эффективную и стабильную среду для обучения RL, основанного на поиске, снижая зависимость от внешних поисковых систем и способствуя устойчивому переносу из симуляции в реальность. Мы делаем следующие выводы: 1) LLM обладают знаниями о мире, которые можно эффективно использовать для достижения высокой производительности; 2) SSRL демонстрирует потенциал использования внутренних знаний для снижения галлюцинаций; 3) модели, обученные с помощью SSRL, легко интегрируются с внешними поисковыми системами без дополнительных усилий. Наши результаты подчеркивают потенциал LLM для поддержки более масштабируемого обучения RL-агентов.

English

We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.

SSRL: Самообучающееся обучение с подкреплением

SSRL: Self-Search Reinforcement Learning

Аннотация

Support