R1-Searcher: Стимулирование поисковых возможностей в крупных языковых моделях с помощью обучения с подкреплением
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
March 7, 2025
Авторы: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI
Аннотация
Существующие крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали потенциал обучения с подкреплением (Reinforcement Learning, RL) для улучшения сложных способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). Хотя они достигают впечатляющих результатов в сложных задачах, таких как математика и программирование, они часто полагаются на свои внутренние знания для решения проблем, что может быть недостаточным для задач, требующих оперативного реагирования или интенсивного использования знаний, что приводит к неточностям и "галлюцинациям". Для решения этой проблемы мы предлагаем R1-Searcher — новый двухэтапный подход на основе обучения с подкреплением, ориентированный на результат, который призван улучшить поисковые возможности LLMs. Этот метод позволяет LLMs автономно обращаться к внешним поисковым системам для получения дополнительных знаний в процессе рассуждений. Наша архитектура полностью основана на RL и не требует вознаграждений за процесс или дистилляции для "холодного старта". Наши эксперименты показывают, что наш метод значительно превосходит предыдущие сильные методы RAG (Retrieval-Augmented Generation), даже в сравнении с закрытой моделью GPT-4o-mini.
English
Existing Large Reasoning Models (LRMs) have shown the potential of
reinforcement learning (RL) to enhance the complex reasoning capabilities of
Large Language Models~(LLMs). While they achieve remarkable performance on
challenging tasks such as mathematics and coding, they often rely on their
internal knowledge to solve problems, which can be inadequate for
time-sensitive or knowledge-intensive questions, leading to inaccuracies and
hallucinations. To address this, we propose R1-Searcher, a novel
two-stage outcome-based RL approach designed to enhance the search capabilities
of LLMs. This method allows LLMs to autonomously invoke external search systems
to access additional knowledge during the reasoning process. Our framework
relies exclusively on RL, without requiring process rewards or distillation for
a cold start. % effectively generalizing to out-of-domain datasets and
supporting both Base and Instruct models. Our experiments demonstrate that our
method significantly outperforms previous strong RAG methods, even when
compared to the closed-source GPT-4o-mini.Summary
AI-Generated Summary