Self-RAG : Apprendre à récupérer, générer et critiquer par auto-réflexion
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
October 17, 2023
Auteurs: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
cs.AI
Résumé
Malgré leurs capacités remarquables, les grands modèles de langage (LLM) produisent souvent des réponses contenant des inexactitudes factuelles en raison de leur dépendance exclusive aux connaissances paramétriques qu'ils encapsulent. La Génération Augmentée par Récupération (RAG), une approche ad hoc qui enrichit les modèles de langage par la récupération de connaissances pertinentes, réduit ces problèmes. Cependant, récupérer et incorporer de manière indiscriminée un nombre fixe de passages, sans tenir compte de la nécessité de la récupération ou de la pertinence des passages, diminue la polyvalence des modèles de langage ou peut conduire à la génération de réponses inutiles. Nous introduisons un nouveau cadre appelé Génération Augmentée par Récupération et Auto-Réflexion (Self-RAG) qui améliore la qualité et la factualité d'un modèle de langage grâce à la récupération et à l'auto-réflexion. Notre cadre entraîne un seul modèle de langage arbitraire qui récupère de manière adaptative des passages à la demande, et génère et réfléchit sur les passages récupérés et ses propres générations en utilisant des tokens spéciaux, appelés tokens de réflexion. La génération de tokens de réflexion rend le modèle de langage contrôlable pendant la phase d'inférence, lui permettant d'adapter son comportement à diverses exigences de tâches. Les expériences montrent que Self-RAG (7B et 13B paramètres) surpasse significativement les LLM et les modèles augmentés par récupération de pointe sur un ensemble diversifié de tâches. Plus précisément, Self-RAG surpasse ChatGPT et Llama2-chat augmenté par récupération sur les tâches de question-réponse ouverte, de raisonnement et de vérification des faits, et il montre des gains significatifs dans l'amélioration de la factualité et de la précision des citations pour les générations longues par rapport à ces modèles.
English
Despite their remarkable capabilities, large language models (LLMs) often
produce responses containing factual inaccuracies due to their sole reliance on
the parametric knowledge they encapsulate. Retrieval-Augmented Generation
(RAG), an ad hoc approach that augments LMs with retrieval of relevant
knowledge, decreases such issues. However, indiscriminately retrieving and
incorporating a fixed number of retrieved passages, regardless of whether
retrieval is necessary, or passages are relevant, diminishes LM versatility or
can lead to unhelpful response generation. We introduce a new framework called
Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's
quality and factuality through retrieval and self-reflection. Our framework
trains a single arbitrary LM that adaptively retrieves passages on-demand, and
generates and reflects on retrieved passages and its own generations using
special tokens, called reflection tokens. Generating reflection tokens makes
the LM controllable during the inference phase, enabling it to tailor its
behavior to diverse task requirements. Experiments show that Self-RAG (7B and
13B parameters) significantly outperforms state-of-the-art LLMs and
retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG
outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA,
reasoning and fact verification tasks, and it shows significant gains in
improving factuality and citation accuracy for long-form generations relative
to these models.