R1-Searcher: Förderung der Suchfähigkeit in LLMs durch Reinforcement Learning
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
March 7, 2025
Autoren: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI
Zusammenfassung
Bestehende Large Reasoning Models (LRMs) haben das Potenzial von Reinforcement Learning (RL) gezeigt, um die komplexen Denkfähigkeiten von Large Language Models (LLMs) zu verbessern. Obwohl sie bemerkenswerte Leistungen bei anspruchsvollen Aufgaben wie Mathematik und Programmierung erzielen, verlassen sie sich oft auf ihr internes Wissen, um Probleme zu lösen, was bei zeitkritischen oder wissensintensiven Fragen unzureichend sein kann, was zu Ungenauigkeiten und Halluzinationen führt. Um dies zu adressieren, schlagen wir R1-Searcher vor, einen neuartigen zweistufigen RL-Ansatz auf Basis von Ergebnissen, der darauf abzielt, die Suchfähigkeiten von LLMs zu verbessern. Diese Methode ermöglicht es LLMs, während des Denkprozesses eigenständig externe Suchsysteme aufzurufen, um zusätzliches Wissen zu nutzen. Unser Framework basiert ausschließlich auf RL, ohne Prozessbelohnungen oder Destillation für einen Kaltstart zu benötigen. Unsere Experimente zeigen, dass unsere Methode bisherige starke RAG-Methoden deutlich übertrifft, selbst im Vergleich zum Closed-Source-Modell GPT-4o-mini.
English
Existing Large Reasoning Models (LRMs) have shown the potential of
reinforcement learning (RL) to enhance the complex reasoning capabilities of
Large Language Models~(LLMs). While they achieve remarkable performance on
challenging tasks such as mathematics and coding, they often rely on their
internal knowledge to solve problems, which can be inadequate for
time-sensitive or knowledge-intensive questions, leading to inaccuracies and
hallucinations. To address this, we propose R1-Searcher, a novel
two-stage outcome-based RL approach designed to enhance the search capabilities
of LLMs. This method allows LLMs to autonomously invoke external search systems
to access additional knowledge during the reasoning process. Our framework
relies exclusively on RL, without requiring process rewards or distillation for
a cold start. % effectively generalizing to out-of-domain datasets and
supporting both Base and Instruct models. Our experiments demonstrate that our
method significantly outperforms previous strong RAG methods, even when
compared to the closed-source GPT-4o-mini.Summary
AI-Generated Summary