ReaRAG: Raciocínio Guiado por Conhecimento Melhora a Factualidade de Modelos de Raciocínio de Grande Escala com Geração Aumentada por Recuperação Iterativa

Resumo

Modelos de Raciocínio de Grande Escala (LRMs) exibem habilidades notáveis de raciocínio, mas dependem principalmente de conhecimento paramétrico, o que limita a precisão factual. Embora trabalhos recentes tenham equipado LRMs baseados em aprendizado por reforço (RL) com capacidades de recuperação de informações, eles sofrem com excesso de reflexão e falta de robustez no raciocínio, reduzindo sua eficácia em tarefas de questionamento e resposta (QA). Para resolver isso, propomos o ReaRAG, um modelo de raciocínio aprimorado em factualidade que explora consultas diversas sem iterações excessivas. Nossa solução inclui uma nova estrutura de construção de dados com um limite superior no comprimento da cadeia de raciocínio. Especificamente, primeiro utilizamos um LRM para gerar pensamento deliberado, depois selecionamos uma ação de um espaço de ações predefinido (Pesquisar e Finalizar). Para a ação de Pesquisar, uma consulta é executada no mecanismo RAG, onde o resultado é retornado como observação para orientar etapas de raciocínio posteriores. Esse processo itera até que uma ação de Finalizar seja escolhida. Beneficiando-se das fortes capacidades de raciocínio do ReaRAG, nossa abordagem supera as linhas de base existentes em QA de múltiplos saltos. Análises adicionais destacam sua forte capacidade reflexiva de reconhecer erros e refinar sua trajetória de raciocínio. Nosso estudo aprimora a factualidade dos LRMs enquanto integra efetivamente raciocínio robusto para Geração Aumentada por Recuperação (RAG).

English

Large Reasoning Models (LRMs) exhibit remarkable reasoning abilities but rely primarily on parametric knowledge, limiting factual accuracy. While recent works equip reinforcement learning (RL)-based LRMs with retrieval capabilities, they suffer from overthinking and lack robustness in reasoning, reducing their effectiveness in question answering (QA) tasks. To address this, we propose ReaRAG, a factuality-enhanced reasoning model that explores diverse queries without excessive iterations. Our solution includes a novel data construction framework with an upper bound on the reasoning chain length. Specifically, we first leverage an LRM to generate deliberate thinking, then select an action from a predefined action space (Search and Finish). For Search action, a query is executed against the RAG engine, where the result is returned as observation to guide reasoning steps later. This process iterates until a Finish action is chosen. Benefiting from ReaRAG's strong reasoning capabilities, our approach outperforms existing baselines on multi-hop QA. Further analysis highlights its strong reflective ability to recognize errors and refine its reasoning trajectory. Our study enhances LRMs' factuality while effectively integrating robust reasoning for Retrieval-Augmented Generation (RAG).

ReaRAG: Raciocínio Guiado por Conhecimento Melhora a Factualidade de Modelos de Raciocínio de Grande Escala com Geração Aumentada por Recuperação Iterativa

ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Resumo

Support