Open-RAG: Ragionamento potenziato da recupero migliorato con modelli linguistici open-source di grandi dimensioni

Abstract

Il Generatore con Recupero Potenziato (RAG) ha dimostrato di migliorare l'accuratezza fattuale dei Grandi Modelli Linguistici (LLM), ma i metodi esistenti spesso soffrono di limitate capacità di ragionamento nell'utilizzare in modo efficace le prove recuperate, in particolare quando si utilizzano LLM open-source. Per mitigare questa lacuna, presentiamo un nuovo framework, Open-RAG, progettato per potenziare le capacità di ragionamento in RAG con LLM open-source. Il nostro framework trasforma un qualsiasi LLM denso in un modello di Mixture of Experts (MoE) efficiente nei parametri in grado di gestire compiti di ragionamento complessi, inclusi sia le query a singolo che a più passaggi. Open-RAG addestra in modo unico il modello a navigare tra distrattori impegnativi che sembrano rilevanti ma sono fuorvianti. Di conseguenza, Open-RAG sfrutta l'apprendimento latente, selezionando dinamicamente esperti rilevanti e integrando conoscenze esterne in modo efficace per risposte più accurate e pertinenti dal punto di vista contestuale. Inoltre, proponiamo un metodo di recupero adattivo ibrido per determinare la necessità di recupero e bilanciare il compromesso tra guadagno di prestazioni e velocità di inferenza. I risultati sperimentali mostrano che Open-RAG basato su Llama2-7B supera i LLM e i modelli RAG all'avanguardia come ChatGPT, Self-RAG e Command R+ in vari compiti intensivi di conoscenza. Rilasciamo il nostro codice e i modelli open-source su https://openragmoe.github.io/

English

Retrieval-Augmented Generation (RAG) has been shown to enhance the factual accuracy of Large Language Models (LLMs), but existing methods often suffer from limited reasoning capabilities in effectively using the retrieved evidence, particularly when using open-source LLMs. To mitigate this gap, we introduce a novel framework, Open-RAG, designed to enhance reasoning capabilities in RAG with open-source LLMs. Our framework transforms an arbitrary dense LLM into a parameter-efficient sparse mixture of experts (MoE) model capable of handling complex reasoning tasks, including both single- and multi-hop queries. Open-RAG uniquely trains the model to navigate challenging distractors that appear relevant but are misleading. As a result, Open-RAG leverages latent learning, dynamically selecting relevant experts and integrating external knowledge effectively for more accurate and contextually relevant responses. In addition, we propose a hybrid adaptive retrieval method to determine retrieval necessity and balance the trade-off between performance gain and inference speed. Experimental results show that the Llama2-7B-based Open-RAG outperforms state-of-the-art LLMs and RAG models such as ChatGPT, Self-RAG, and Command R+ in various knowledge-intensive tasks. We open-source our code and models at https://openragmoe.github.io/

Open-RAG: Ragionamento potenziato da recupero migliorato con modelli linguistici open-source di grandi dimensioni

Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Abstract

Support