ChatPaper.aiChatPaper

ReSearch: Aprendizaje del razonamiento mediante búsqueda para modelos de lenguaje grandes a través de aprendizaje por refuerzo

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

March 25, 2025
Autores: Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en razonamiento, ejemplificado por el éxito de OpenAI-o1 y DeepSeek-R1. Sin embargo, integrar el razonamiento con procesos de búsqueda externa sigue siendo un desafío, especialmente para preguntas complejas de múltiples saltos que requieren varios pasos de recuperación. Proponemos ReSearch, un marco novedoso que entrena a los LLMs a Razonar con Búsqueda mediante aprendizaje por refuerzo sin utilizar datos supervisados sobre los pasos de razonamiento. Nuestro enfoque trata las operaciones de búsqueda como componentes integrales de la cadena de razonamiento, donde cuándo y cómo realizar búsquedas es guiado por el pensamiento basado en texto, y los resultados de búsqueda influyen posteriormente en el razonamiento adicional. Entrenamos ReSearch en los modelos Qwen2.5-7B(-Instruct) y Qwen2.5-32B(-Instruct) y realizamos experimentos extensivos. A pesar de ser entrenados en solo un conjunto de datos, nuestros modelos demuestran una fuerte generalización en varios puntos de referencia. El análisis revela que ReSearch naturalmente induce capacidades avanzadas de razonamiento, como la reflexión y la autocorrección, durante el proceso de aprendizaje por refuerzo.
English
Large Language Models (LLMs) have shown remarkable capabilities in reasoning, exemplified by the success of OpenAI-o1 and DeepSeek-R1. However, integrating reasoning with external search processes remains challenging, especially for complex multi-hop questions requiring multiple retrieval steps. We propose ReSearch, a novel framework that trains LLMs to Reason with Search via reinforcement learning without using any supervised data on reasoning steps. Our approach treats search operations as integral components of the reasoning chain, where when and how to perform searches is guided by text-based thinking, and search results subsequently influence further reasoning. We train ReSearch on Qwen2.5-7B(-Instruct) and Qwen2.5-32B(-Instruct) models and conduct extensive experiments. Despite being trained on only one dataset, our models demonstrate strong generalizability across various benchmarks. Analysis reveals that ReSearch naturally elicits advanced reasoning capabilities such as reflection and self-correction during the reinforcement learning process.

Summary

AI-Generated Summary

PDF173March 26, 2025