ChatPaper.aiChatPaper

R1-Searcher: Incentivizando la Capacidad de Búsqueda en LLMs mediante Aprendizaje por Refuerzo

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

March 7, 2025
Autores: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) existentes han demostrado el potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento complejo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Aunque logran un rendimiento notable en tareas desafiantes como las matemáticas y la codificación, a menudo dependen de su conocimiento interno para resolver problemas, lo cual puede ser insuficiente para preguntas sensibles al tiempo o que requieren un conocimiento intensivo, lo que lleva a imprecisiones y alucinaciones. Para abordar esto, proponemos R1-Searcher, un novedoso enfoque de RL basado en resultados de dos etapas diseñado para mejorar las capacidades de búsqueda de los LLMs. Este método permite que los LLMs invoquen de manera autónoma sistemas de búsqueda externos para acceder a conocimiento adicional durante el proceso de razonamiento. Nuestro marco se basa exclusivamente en RL, sin requerir recompensas de proceso o destilación para un inicio en frío. Nuestros experimentos demuestran que nuestro método supera significativamente a los métodos RAG anteriores, incluso en comparación con el modelo cerrado GPT-4o-mini.
English
Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose R1-Searcher, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

Summary

AI-Generated Summary

PDF272March 10, 2025