ChatPaper.aiChatPaper

R1-Searcher: Incentivizzare la Capacità di Ricerca nei Modelli Linguistici di Grande Dimensione tramite Apprendimento per Rinforzo

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

March 7, 2025
Autori: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI

Abstract

I modelli di ragionamento su larga scala (LRM) esistenti hanno dimostrato il potenziale dell'apprendimento per rinforzo (RL) nel migliorare le capacità di ragionamento complesso dei modelli linguistici su larga scala (LLM). Sebbene raggiungano prestazioni notevoli in compiti impegnativi come la matematica e la programmazione, spesso si affidano alle loro conoscenze interne per risolvere i problemi, il che può risultare inadeguato per domande sensibili al tempo o ad alta intensità di conoscenza, portando a inesattezze e allucinazioni. Per affrontare questo problema, proponiamo R1-Searcher, un innovativo approccio RL basato sui risultati in due fasi progettato per migliorare le capacità di ricerca degli LLM. Questo metodo consente agli LLM di invocare autonomamente sistemi di ricerca esterni per accedere a conoscenze aggiuntive durante il processo di ragionamento. Il nostro framework si basa esclusivamente sull'RL, senza richiedere ricompense di processo o distillazione per un avvio a freddo. % generalizzando efficacemente a dataset fuori dominio e supportando sia modelli Base che Instruct. I nostri esperimenti dimostrano che il nostro metodo supera significativamente i precedenti metodi RAG forti, anche rispetto al modello closed-source GPT-4o-mini.
English
Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose R1-Searcher, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

Summary

AI-Generated Summary

PDF272March 10, 2025