ChatPaper.aiChatPaper

R1-Searcher: Incentivizando a Capacidade de Busca em LLMs por meio de Aprendizado por Reforço

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

March 7, 2025
Autores: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI

Resumo

Os Modelos de Raciocínio de Grande Escala (LRMs) existentes demonstraram o potencial do aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio complexo dos Modelos de Linguagem de Grande Escala (LLMs). Embora alcancem desempenho notável em tarefas desafiadoras, como matemática e codificação, eles frequentemente dependem de seu conhecimento interno para resolver problemas, o que pode ser inadequado para questões sensíveis ao tempo ou que exigem conhecimento intensivo, levando a imprecisões e alucinações. Para abordar isso, propomos o R1-Searcher, uma nova abordagem de RL baseada em resultados em dois estágios, projetada para aprimorar as capacidades de busca dos LLMs. Esse método permite que os LLMs invoquem autonomamente sistemas de busca externos para acessar conhecimento adicional durante o processo de raciocínio. Nosso framework depende exclusivamente do RL, sem exigir recompensas de processo ou destilação para um início a frio. Nossos experimentos demonstram que nosso método supera significativamente os métodos RAG anteriores fortes, mesmo quando comparado ao GPT-4o-mini de código fechado.
English
Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose R1-Searcher, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

Summary

AI-Generated Summary

PDF272March 10, 2025