ChatPaper.aiChatPaper

Search-R1: Entrenamiento de Modelos de Lenguaje Grande para Razonar y Aprovechar Motores de Búsqueda con Aprendizaje por Refuerzo

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

March 12, 2025
Autores: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
cs.AI

Resumen

Adquirir de manera eficiente conocimiento externo e información actualizada es esencial para un razonamiento efectivo y la generación de texto en modelos de lenguaje de gran escala (LLMs). Los enfoques de aumento mediante recuperación y entrenamiento en el uso de herramientas, donde un motor de búsqueda se trata como una herramienta, carecen de flexibilidad en la recuperación multiturno compleja o requieren grandes cantidades de datos supervisados. Indicar a LLMs avanzados con capacidades de razonamiento durante la inferencia para que utilicen motores de búsqueda no es óptimo, ya que el LLM no aprende a interactuar de manera óptima con el motor de búsqueda. Este artículo presenta Search-R1, una extensión del modelo DeepSeek-R1 donde el LLM aprende —únicamente mediante aprendizaje por refuerzo (RL)— a generar de manera autónoma (múltiples) consultas de búsqueda durante el razonamiento paso a paso con recuperación en tiempo real. Search-R1 optimiza las iteraciones del LLM con interacciones de búsqueda multiturno, aprovechando el enmascaramiento de tokens recuperados para un entrenamiento estable de RL y una función de recompensa simple basada en resultados. Los experimentos en siete conjuntos de datos de preguntas y respuestas muestran que Search-R1 mejora el rendimiento en un 26% (Qwen2.5-7B), 21% (Qwen2.5-3B) y 10% (LLaMA3.2-3B) sobre los baselines de última generación. Este artículo también proporciona insights empíricos sobre métodos de optimización de RL, elecciones de LLM y dinámicas de longitud de respuesta en el razonamiento aumentado mediante recuperación. El código y los puntos de control del modelo están disponibles en https://github.com/PeterGriffinJin/Search-R1.
English
Efficiently acquiring external knowledge and up-to-date information is essential for effective reasoning and text generation in large language models (LLMs). Retrieval augmentation and tool-use training approaches where a search engine is treated as a tool lack complex multi-turn retrieval flexibility or require large-scale supervised data. Prompting advanced LLMs with reasoning capabilities during inference to use search engines is not optimal, since the LLM does not learn how to optimally interact with the search engine. This paper introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM learns -- solely through reinforcement learning (RL) -- to autonomously generate (multiple) search queries during step-by-step reasoning with real-time retrieval. Search-R1 optimizes LLM rollouts with multi-turn search interactions, leveraging retrieved token masking for stable RL training and a simple outcome-based reward function. Experiments on seven question-answering datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21% (Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further provides empirical insights into RL optimization methods, LLM choices, and response length dynamics in retrieval-augmented reasoning. The code and model checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.

Summary

AI-Generated Summary

PDF282March 13, 2025