ChatPaper.aiChatPaper

ReSearch : Apprendre à raisonner par la recherche pour les LLM via l'apprentissage par renforcement

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

March 25, 2025
Auteurs: Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré des capacités remarquables en matière de raisonnement, comme en témoignent les succès d'OpenAI-o1 et de DeepSeek-R1. Cependant, l'intégration du raisonnement avec des processus de recherche externes reste un défi, en particulier pour les questions complexes à sauts multiples nécessitant plusieurs étapes de récupération. Nous proposons ReSearch, un nouveau cadre qui entraîne les LLM à Raisonner avec la Recherche via l'apprentissage par renforcement sans utiliser de données supervisées sur les étapes de raisonnement. Notre approche traite les opérations de recherche comme des composants intégrés de la chaîne de raisonnement, où le moment et la manière d'effectuer les recherches sont guidés par une réflexion textuelle, et les résultats de recherche influencent ensuite le raisonnement ultérieur. Nous entraînons ReSearch sur les modèles Qwen2.5-7B(-Instruct) et Qwen2.5-32B(-Instruct) et menons des expériences approfondies. Bien qu'entraînés sur un seul ensemble de données, nos modèles démontrent une forte généralisabilité sur divers benchmarks. L'analyse révèle que ReSearch suscite naturellement des capacités de raisonnement avancées telles que la réflexion et l'auto-correction pendant le processus d'apprentissage par renforcement.
English
Large Language Models (LLMs) have shown remarkable capabilities in reasoning, exemplified by the success of OpenAI-o1 and DeepSeek-R1. However, integrating reasoning with external search processes remains challenging, especially for complex multi-hop questions requiring multiple retrieval steps. We propose ReSearch, a novel framework that trains LLMs to Reason with Search via reinforcement learning without using any supervised data on reasoning steps. Our approach treats search operations as integral components of the reasoning chain, where when and how to perform searches is guided by text-based thinking, and search results subsequently influence further reasoning. We train ReSearch on Qwen2.5-7B(-Instruct) and Qwen2.5-32B(-Instruct) models and conduct extensive experiments. Despite being trained on only one dataset, our models demonstrate strong generalizability across various benchmarks. Analysis reveals that ReSearch naturally elicits advanced reasoning capabilities such as reflection and self-correction during the reinforcement learning process.

Summary

AI-Generated Summary

PDF173March 26, 2025