ChatPaper.aiChatPaper

SSRL: Aprendizaje por Refuerzo de Búsqueda Autónoma

SSRL: Self-Search Reinforcement Learning

August 14, 2025
Autores: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
cs.AI

Resumen

Investigamos el potencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para funcionar como simuladores eficientes en tareas de búsqueda agentiva en el aprendizaje por refuerzo (RL, por sus siglas en inglés), reduciendo así la dependencia de interacciones costosas con motores de búsqueda externos. Para ello, primero cuantificamos la capacidad intrínseca de búsqueda de los LLMs mediante el uso de indicaciones estructuradas y muestreo repetido, lo que denominamos Auto-Búsqueda (Self-Search). Nuestros resultados revelan que los LLMs exhiben un fuerte comportamiento de escalabilidad en relación con el presupuesto de inferencia, alcanzando altos valores de pass@k en benchmarks de preguntas y respuestas, incluyendo la tarea desafiante de BrowseComp. Basándonos en estas observaciones, introducimos Auto-Búsqueda RL (SSRL, por sus siglas en inglés), que mejora la capacidad de Auto-Búsqueda de los LLMs mediante recompensas basadas en formato y reglas. SSRL permite a los modelos refinar iterativamente su utilización del conocimiento internamente, sin necesidad de acceder a herramientas externas. Las evaluaciones empíricas demuestran que los modelos de política entrenados con SSRL proporcionan un entorno rentable y estable para el entrenamiento de RL basado en búsqueda, reduciendo la dependencia de motores de búsqueda externos y facilitando una transferencia robusta de simulación a realidad. Extraemos las siguientes conclusiones: 1) los LLMs poseen conocimiento del mundo que puede ser efectivamente elicitado para alcanzar un alto rendimiento; 2) SSRL demuestra el potencial de aprovechar el conocimiento interno para reducir la alucinación; 3) los modelos entrenados con SSRL se integran sin esfuerzo adicional con motores de búsqueda externos. Nuestros hallazgos resaltan el potencial de los LLMs para apoyar un entrenamiento más escalable de agentes de RL.
English
We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.
PDF764August 18, 2025