R1-Searcher: Incentivizando la Capacidad de Búsqueda en LLMs mediante Aprendizaje por Refuerzo
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
March 7, 2025
Autores: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) existentes han demostrado el potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento complejo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Aunque logran un rendimiento notable en tareas desafiantes como las matemáticas y la codificación, a menudo dependen de su conocimiento interno para resolver problemas, lo cual puede ser insuficiente para preguntas sensibles al tiempo o que requieren un conocimiento intensivo, lo que lleva a imprecisiones y alucinaciones. Para abordar esto, proponemos R1-Searcher, un novedoso enfoque de RL basado en resultados de dos etapas diseñado para mejorar las capacidades de búsqueda de los LLMs. Este método permite que los LLMs invoquen de manera autónoma sistemas de búsqueda externos para acceder a conocimiento adicional durante el proceso de razonamiento. Nuestro marco se basa exclusivamente en RL, sin requerir recompensas de proceso o destilación para un inicio en frío. Nuestros experimentos demuestran que nuestro método supera significativamente a los métodos RAG anteriores, incluso en comparación con el modelo cerrado GPT-4o-mini.
English
Existing Large Reasoning Models (LRMs) have shown the potential of
reinforcement learning (RL) to enhance the complex reasoning capabilities of
Large Language Models~(LLMs). While they achieve remarkable performance on
challenging tasks such as mathematics and coding, they often rely on their
internal knowledge to solve problems, which can be inadequate for
time-sensitive or knowledge-intensive questions, leading to inaccuracies and
hallucinations. To address this, we propose R1-Searcher, a novel
two-stage outcome-based RL approach designed to enhance the search capabilities
of LLMs. This method allows LLMs to autonomously invoke external search systems
to access additional knowledge during the reasoning process. Our framework
relies exclusively on RL, without requiring process rewards or distillation for
a cold start. % effectively generalizing to out-of-domain datasets and
supporting both Base and Instruct models. Our experiments demonstrate that our
method significantly outperforms previous strong RAG methods, even when
compared to the closed-source GPT-4o-mini.Summary
AI-Generated Summary