ChatPaper.aiChatPaper

R1-Searcher++: Incentivando a Aquisição Dinâmica de Conhecimento em LLMs por meio de Aprendizado por Reforço

R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

May 22, 2025
Autores: Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são poderosos, mas propensos a alucinações devido ao conhecimento estático. A Geração Aumentada por Recuperação (RAG) ajuda ao injetar informações externas, mas os métodos atuais frequentemente são custosos, generalizam mal ou ignoram o conhecimento interno do modelo. Neste artigo, introduzimos o R1-Searcher++, uma nova estrutura projetada para treinar LLMs a aproveitar de forma adaptativa tanto fontes de conhecimento internas quanto externas. O R1-Searcher++ emprega uma estratégia de treinamento em duas etapas: uma fase inicial de Cold-start com Ajuste Fino Supervisionado (SFT) para aprendizado preliminar de formato, seguida por Aprendizado por Reforço (RL) para Aquisição Dinâmica de Conhecimento. A etapa de RL utiliza supervisão de resultados para incentivar a exploração, incorpora um mecanismo de recompensa para utilização do conhecimento interno e integra um mecanismo de memorização para assimilar continuamente as informações recuperadas, enriquecendo assim o conhecimento interno do modelo. Ao aproveitar o conhecimento interno e um mecanismo de busca externo, o modelo melhora continuamente suas capacidades, permitindo um raciocínio aumentado por recuperação eficiente. Nossos experimentos demonstram que o R1-Searcher++ supera métodos anteriores de RAG e raciocínio e alcança uma recuperação eficiente. O código está disponível em https://github.com/RUCAIBox/R1-Searcher-plus.
English
Large Language Models (LLMs) are powerful but prone to hallucinations due to static knowledge. Retrieval-Augmented Generation (RAG) helps by injecting external information, but current methods often are costly, generalize poorly, or ignore the internal knowledge of the model. In this paper, we introduce R1-Searcher++, a novel framework designed to train LLMs to adaptively leverage both internal and external knowledge sources. R1-Searcher++ employs a two-stage training strategy: an initial SFT Cold-start phase for preliminary format learning, followed by RL for Dynamic Knowledge Acquisition. The RL stage uses outcome-supervision to encourage exploration, incorporates a reward mechanism for internal knowledge utilization, and integrates a memorization mechanism to continuously assimilate retrieved information, thereby enriching the model's internal knowledge. By leveraging internal knowledge and external search engine, the model continuously improves its capabilities, enabling efficient retrieval-augmented reasoning. Our experiments demonstrate that R1-Searcher++ outperforms previous RAG and reasoning methods and achieves efficient retrieval. The code is available at https://github.com/RUCAIBox/R1-Searcher-plus.
PDF52December 4, 2025