Open-RAG: Raciocínio Aprimorado com Recuperação Aumentada com Modelos de Linguagem de Código Aberto de Grande Escala

Resumo

A Geração com Recuperação Aprimorada (RAG) tem demonstrado melhorar a precisão factual dos Modelos de Linguagem de Grande Escala (LLMs), mas os métodos existentes frequentemente sofrem de capacidades limitadas de raciocínio ao utilizar efetivamente a evidência recuperada, especialmente ao usar LLMs de código aberto. Para mitigar essa lacuna, introduzimos um novo framework, Open-RAG, projetado para aprimorar as capacidades de raciocínio no RAG com LLMs de código aberto. Nosso framework transforma um LLM denso arbitrário em um modelo de mistura de especialistas (MoE) esparsa eficiente em parâmetros capaz de lidar com tarefas de raciocínio complexas, incluindo consultas de um ou vários saltos. O Open-RAG treina o modelo de forma única para navegar em distratores desafiadores que parecem relevantes, mas são enganosos. Como resultado, o Open-RAG aproveita a aprendizagem latente, selecionando dinamicamente especialistas relevantes e integrando conhecimento externo de forma eficaz para respostas mais precisas e contextualmente relevantes. Além disso, propomos um método híbrido adaptativo de recuperação para determinar a necessidade de recuperação e equilibrar o compromisso entre ganho de desempenho e velocidade de inferência. Resultados experimentais mostram que o Open-RAG baseado em Llama2-7B supera os LLMs e modelos RAG de ponta, como ChatGPT, Self-RAG e Command R+, em várias tarefas intensivas em conhecimento. Disponibilizamos nosso código e modelos em código aberto em https://openragmoe.github.io/

English

Retrieval-Augmented Generation (RAG) has been shown to enhance the factual accuracy of Large Language Models (LLMs), but existing methods often suffer from limited reasoning capabilities in effectively using the retrieved evidence, particularly when using open-source LLMs. To mitigate this gap, we introduce a novel framework, Open-RAG, designed to enhance reasoning capabilities in RAG with open-source LLMs. Our framework transforms an arbitrary dense LLM into a parameter-efficient sparse mixture of experts (MoE) model capable of handling complex reasoning tasks, including both single- and multi-hop queries. Open-RAG uniquely trains the model to navigate challenging distractors that appear relevant but are misleading. As a result, Open-RAG leverages latent learning, dynamically selecting relevant experts and integrating external knowledge effectively for more accurate and contextually relevant responses. In addition, we propose a hybrid adaptive retrieval method to determine retrieval necessity and balance the trade-off between performance gain and inference speed. Experimental results show that the Llama2-7B-based Open-RAG outperforms state-of-the-art LLMs and RAG models such as ChatGPT, Self-RAG, and Command R+ in various knowledge-intensive tasks. We open-source our code and models at https://openragmoe.github.io/

Open-RAG: Raciocínio Aprimorado com Recuperação Aumentada com Modelos de Linguagem de Código Aberto de Grande Escala

Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Resumo

Support