ChatPaper.aiChatPaper

R1-Searcher : Stimuler la capacité de recherche dans les LLM via l'apprentissage par renforcement

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

March 7, 2025
Auteurs: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI

Résumé

Les modèles de raisonnement à grande échelle (LRMs) existants ont démontré le potentiel de l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement complexe des modèles de langage à grande échelle (LLMs). Bien qu'ils obtiennent des performances remarquables sur des tâches difficiles telles que les mathématiques et la programmation, ils s'appuient souvent sur leurs connaissances internes pour résoudre des problèmes, ce qui peut s'avérer insuffisant pour des questions sensibles au temps ou nécessitant des connaissances approfondies, entraînant des inexactitudes et des hallucinations. Pour remédier à cela, nous proposons R1-Searcher, une nouvelle approche RL en deux étapes basée sur les résultats, conçue pour améliorer les capacités de recherche des LLMs. Cette méthode permet aux LLMs d'invoquer de manière autonome des systèmes de recherche externes pour accéder à des connaissances supplémentaires pendant le processus de raisonnement. Notre framework repose exclusivement sur le RL, sans nécessiter de récompenses de processus ou de distillation pour un démarrage à froid. Nos expériences montrent que notre méthode surpasse significativement les méthodes RAG précédentes, même en comparaison avec le modèle GPT-4o-mini propriétaire.
English
Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose R1-Searcher, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

Summary

AI-Generated Summary

PDF272March 10, 2025