ChatPaper.aiChatPaper

SSRL: Aprendizado por Reforço de Auto-Pesquisa

SSRL: Self-Search Reinforcement Learning

August 14, 2025
Autores: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI

Resumo

Investigamos o potencial dos modelos de linguagem de grande escala (LLMs) para atuarem como simuladores eficientes em tarefas de busca agentiva em aprendizado por reforço (RL), reduzindo assim a dependência de interações custosas com mecanismos de busca externos. Para isso, primeiro quantificamos a capacidade intrínseca de busca dos LLMs por meio de prompts estruturados e amostragem repetida, que denominamos Self-Search. Nossos resultados revelam que os LLMs exibem um forte comportamento de escalonamento em relação ao orçamento de inferência, alcançando altos índices de pass@k em benchmarks de perguntas e respostas, incluindo a tarefa desafiadora BrowseComp. Com base nessas observações, introduzimos o Self-Search RL (SSRL), que aprimora a capacidade de Self-Search dos LLMs por meio de recompensas baseadas em formato e regras. O SSRL permite que os modelos refinem iterativamente a utilização de seu conhecimento internamente, sem a necessidade de acesso a ferramentas externas. Avaliações empíricas demonstram que os modelos de política treinados com SSRL fornecem um ambiente estável e econômico para o treinamento de RL orientado por busca, reduzindo a dependência de mecanismos de busca externos e facilitando uma transferência robusta de simulação para o mundo real. Tiramos as seguintes conclusões: 1) Os LLMs possuem conhecimento do mundo que pode ser efetivamente eliciado para alcançar alto desempenho; 2) O SSRL demonstra o potencial de aproveitar o conhecimento interno para reduzir alucinações; 3) Os modelos treinados com SSRL integram-se perfeitamente com mecanismos de busca externos sem esforço adicional. Nossas descobertas destacam o potencial dos LLMs para apoiar um treinamento mais escalável de agentes de RL.
English
We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.
PDF924August 18, 2025