Self-RAG: Apprendere a Recuperare, Generare e Valutare attraverso l'Auto-Riflessione

Abstract

Nonostante le loro straordinarie capacità, i grandi modelli linguistici (LLM) spesso producono risposte contenenti inesattezze fattuali a causa della loro esclusiva dipendenza dalla conoscenza parametrica che racchiudono. La Generazione Aumentata dal Recupero (RAG), un approccio ad hoc che potenzia i modelli linguistici con il recupero di conoscenze rilevanti, riduce tali problemi. Tuttavia, il recupero e l'incorporazione indiscriminata di un numero fisso di passaggi recuperati, indipendentemente dalla necessità del recupero o dalla rilevanza dei passaggi, riduce la versatilità del modello linguistico o può portare alla generazione di risposte inutili. Introduciamo un nuovo framework chiamato Generazione Aumentata dal Recupero Auto-Riflessivo (Self-RAG) che migliora la qualità e la veridicità di un modello linguistico attraverso il recupero e l'auto-riflessione. Il nostro framework addestra un singolo modello linguistico arbitrario che recupera adattivamente passaggi su richiesta, e genera e riflette sui passaggi recuperati e sulle proprie generazioni utilizzando token speciali, chiamati token di riflessione. La generazione di token di riflessione rende il modello linguistico controllabile durante la fase di inferenza, consentendogli di adattare il proprio comportamento a diverse esigenze di compito. Gli esperimenti dimostrano che Self-RAG (con 7B e 13B parametri) supera significativamente i migliori LLM e modelli aumentati dal recupero su un insieme diversificato di compiti. In particolare, Self-RAG supera ChatGPT e Llama2-chat aumentato dal recupero nei compiti di QA a dominio aperto, ragionamento e verifica fattuale, e mostra significativi miglioramenti nella veridicità e nell'accuratezza delle citazioni per generazioni di lunga durata rispetto a questi modelli.

English

Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

Self-RAG: Apprendere a Recuperare, Generare e Valutare attraverso l'Auto-Riflessione

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Abstract

Support