Open-RAG: Raciocínio Aprimorado com Recuperação Aumentada com Modelos de Linguagem de Código Aberto de Grande Escala
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models
October 2, 2024
Autores: Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez
cs.AI
Resumo
A Geração com Recuperação Aprimorada (RAG) tem demonstrado melhorar a precisão factual dos Modelos de Linguagem de Grande Escala (LLMs), mas os métodos existentes frequentemente sofrem de capacidades limitadas de raciocínio ao utilizar efetivamente a evidência recuperada, especialmente ao usar LLMs de código aberto. Para mitigar essa lacuna, introduzimos um novo framework, Open-RAG, projetado para aprimorar as capacidades de raciocínio no RAG com LLMs de código aberto. Nosso framework transforma um LLM denso arbitrário em um modelo de mistura de especialistas (MoE) esparsa eficiente em parâmetros capaz de lidar com tarefas de raciocínio complexas, incluindo consultas de um ou vários saltos. O Open-RAG treina o modelo de forma única para navegar em distratores desafiadores que parecem relevantes, mas são enganosos. Como resultado, o Open-RAG aproveita a aprendizagem latente, selecionando dinamicamente especialistas relevantes e integrando conhecimento externo de forma eficaz para respostas mais precisas e contextualmente relevantes. Além disso, propomos um método híbrido adaptativo de recuperação para determinar a necessidade de recuperação e equilibrar o compromisso entre ganho de desempenho e velocidade de inferência. Resultados experimentais mostram que o Open-RAG baseado em Llama2-7B supera os LLMs e modelos RAG de ponta, como ChatGPT, Self-RAG e Command R+, em várias tarefas intensivas em conhecimento. Disponibilizamos nosso código e modelos em código aberto em https://openragmoe.github.io/
English
Retrieval-Augmented Generation (RAG) has been shown to enhance the factual
accuracy of Large Language Models (LLMs), but existing methods often suffer
from limited reasoning capabilities in effectively using the retrieved
evidence, particularly when using open-source LLMs. To mitigate this gap, we
introduce a novel framework, Open-RAG, designed to enhance reasoning
capabilities in RAG with open-source LLMs. Our framework transforms an
arbitrary dense LLM into a parameter-efficient sparse mixture of experts (MoE)
model capable of handling complex reasoning tasks, including both single- and
multi-hop queries. Open-RAG uniquely trains the model to navigate challenging
distractors that appear relevant but are misleading. As a result, Open-RAG
leverages latent learning, dynamically selecting relevant experts and
integrating external knowledge effectively for more accurate and contextually
relevant responses. In addition, we propose a hybrid adaptive retrieval method
to determine retrieval necessity and balance the trade-off between performance
gain and inference speed. Experimental results show that the Llama2-7B-based
Open-RAG outperforms state-of-the-art LLMs and RAG models such as ChatGPT,
Self-RAG, and Command R+ in various knowledge-intensive tasks. We open-source
our code and models at https://openragmoe.github.io/Summary
AI-Generated Summary