ChatPaper.aiChatPaper

R1-Searcher: Het stimuleren van de zoekcapaciteit in LLM's via Reinforcement Learning

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

March 7, 2025
Auteurs: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI

Samenvatting

Bestaande Large Reasoning Models (LRMs) hebben het potentieel van reinforcement learning (RL) aangetoond om de complexe redeneervaardigheden van Large Language Models (LLMs) te verbeteren. Hoewel ze opmerkelijke prestaties leveren op uitdagende taken zoals wiskunde en programmeren, vertrouwen ze vaak op hun interne kennis om problemen op te lossen, wat ontoereikend kan zijn voor tijdgevoelige of kennisintensieve vragen, wat leidt tot onnauwkeurigheden en hallucinaties. Om dit aan te pakken, stellen we R1-Searcher voor, een nieuwe tweefasen RL-benadering op basis van uitkomsten, ontworpen om de zoekcapaciteiten van LLMs te verbeteren. Deze methode stelt LLMs in staat om autonoom externe zoeksystemen aan te roepen om tijdens het redeneerproces aanvullende kennis te verkrijgen. Ons framework vertrouwt uitsluitend op RL, zonder procesbeloningen of distillatie nodig te hebben voor een koude start. Onze experimenten tonen aan dat onze methode aanzienlijk beter presteert dan eerdere sterke RAG-methoden, zelfs in vergelijking met het closed-source GPT-4o-mini.
English
Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose R1-Searcher, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

Summary

AI-Generated Summary

PDF272March 10, 2025