R1-Searcher++: Стимулирование динамического приобретения знаний в языковых моделях с помощью обучения с подкреплением
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
May 22, 2025
Авторы: Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI
Аннотация
Крупные языковые модели (LLM) обладают высокой мощностью, но склонны к галлюцинациям из-за статичности их знаний. Метод генерации с усилением поиском (RAG) помогает, вводя внешнюю информацию, однако текущие подходы часто оказываются затратными, плохо обобщаются или игнорируют внутренние знания модели. В данной работе мы представляем R1-Searcher++ — новый фреймворк, предназначенный для обучения LLM адаптивному использованию как внутренних, так и внешних источников знаний. R1-Searcher++ применяет двухэтапную стратегию обучения: начальный этап SFT Cold-start для предварительного изучения формата, за которым следует этап обучения с подкреплением (RL) для динамического приобретения знаний. На этапе RL используется контроль по результатам для стимулирования исследования, встроен механизм вознаграждения за использование внутренних знаний, а также интегрирован механизм запоминания для непрерывного усвоения извлеченной информации, что обогащает внутренние знания модели. Благодаря использованию внутренних знаний и внешней поисковой системы, модель непрерывно улучшает свои способности, обеспечивая эффективное рассуждение с усилением поиском. Наши эксперименты показывают, что R1-Searcher++ превосходит предыдущие методы RAG и рассуждения, достигая эффективного поиска. Код доступен по адресу https://github.com/RUCAIBox/R1-Searcher-plus.
English
Large Language Models (LLMs) are powerful but prone to hallucinations due to
static knowledge. Retrieval-Augmented Generation (RAG) helps by injecting
external information, but current methods often are costly, generalize poorly,
or ignore the internal knowledge of the model. In this paper, we introduce
R1-Searcher++, a novel framework designed to train LLMs to adaptively leverage
both internal and external knowledge sources. R1-Searcher++ employs a two-stage
training strategy: an initial SFT Cold-start phase for preliminary format
learning, followed by RL for Dynamic Knowledge Acquisition. The RL stage uses
outcome-supervision to encourage exploration, incorporates a reward mechanism
for internal knowledge utilization, and integrates a memorization mechanism to
continuously assimilate retrieved information, thereby enriching the model's
internal knowledge. By leveraging internal knowledge and external search
engine, the model continuously improves its capabilities, enabling efficient
retrieval-augmented reasoning. Our experiments demonstrate that R1-Searcher++
outperforms previous RAG and reasoning methods and achieves efficient
retrieval. The code is available at
https://github.com/RUCAIBox/R1-Searcher-plus.Summary
AI-Generated Summary