Self-RAG: Aprendiendo a Recuperar, Generar y Criticar a través de la Autorreflexión
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
October 17, 2023
Autores: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
cs.AI
Resumen
A pesar de sus capacidades notables, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo producen respuestas que contienen inexactitudes factuales debido a su dependencia exclusiva del conocimiento paramétrico que encapsulan. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), un enfoque ad hoc que aumenta los modelos de lenguaje con la recuperación de conocimiento relevante, reduce estos problemas. Sin embargo, recuperar e incorporar indiscriminadamente un número fijo de pasajes, independientemente de si la recuperación es necesaria o si los pasajes son relevantes, disminuye la versatilidad del modelo de lenguaje o puede llevar a la generación de respuestas poco útiles. Introducimos un nuevo marco llamado Generación Aumentada por Recuperación con Autorreflexión (Self-RAG, por sus siglas en inglés) que mejora la calidad y la factualidad de un modelo de lenguaje mediante la recuperación y la autorreflexión. Nuestro marco entrena un único modelo de lenguaje arbitrario que recupera pasajes de manera adaptativa según la demanda, y genera y reflexiona sobre los pasajes recuperados y sus propias generaciones utilizando tokens especiales, llamados tokens de reflexión. La generación de tokens de reflexión hace que el modelo de lenguaje sea controlable durante la fase de inferencia, permitiéndole adaptar su comportamiento a diversos requisitos de tareas. Los experimentos muestran que Self-RAG (con 7B y 13B parámetros) supera significativamente a los modelos de lenguaje de última generación y a los modelos aumentados por recuperación en un conjunto diverso de tareas. Específicamente, Self-RAG supera a ChatGPT y a Llama2-chat aumentado por recuperación en tareas de preguntas y respuestas de dominio abierto, razonamiento y verificación de hechos, y muestra mejoras significativas en la factualidad y la precisión de las citas para generaciones de texto largo en comparación con estos modelos.
English
Despite their remarkable capabilities, large language models (LLMs) often
produce responses containing factual inaccuracies due to their sole reliance on
the parametric knowledge they encapsulate. Retrieval-Augmented Generation
(RAG), an ad hoc approach that augments LMs with retrieval of relevant
knowledge, decreases such issues. However, indiscriminately retrieving and
incorporating a fixed number of retrieved passages, regardless of whether
retrieval is necessary, or passages are relevant, diminishes LM versatility or
can lead to unhelpful response generation. We introduce a new framework called
Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's
quality and factuality through retrieval and self-reflection. Our framework
trains a single arbitrary LM that adaptively retrieves passages on-demand, and
generates and reflects on retrieved passages and its own generations using
special tokens, called reflection tokens. Generating reflection tokens makes
the LM controllable during the inference phase, enabling it to tailor its
behavior to diverse task requirements. Experiments show that Self-RAG (7B and
13B parameters) significantly outperforms state-of-the-art LLMs and
retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG
outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA,
reasoning and fact verification tasks, and it shows significant gains in
improving factuality and citation accuracy for long-form generations relative
to these models.