Self-RAG: Aprendiendo a Recuperar, Generar y Criticar a través de la Autorreflexión

Resumen

A pesar de sus capacidades notables, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo producen respuestas que contienen inexactitudes factuales debido a su dependencia exclusiva del conocimiento paramétrico que encapsulan. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), un enfoque ad hoc que aumenta los modelos de lenguaje con la recuperación de conocimiento relevante, reduce estos problemas. Sin embargo, recuperar e incorporar indiscriminadamente un número fijo de pasajes, independientemente de si la recuperación es necesaria o si los pasajes son relevantes, disminuye la versatilidad del modelo de lenguaje o puede llevar a la generación de respuestas poco útiles. Introducimos un nuevo marco llamado Generación Aumentada por Recuperación con Autorreflexión (Self-RAG, por sus siglas en inglés) que mejora la calidad y la factualidad de un modelo de lenguaje mediante la recuperación y la autorreflexión. Nuestro marco entrena un único modelo de lenguaje arbitrario que recupera pasajes de manera adaptativa según la demanda, y genera y reflexiona sobre los pasajes recuperados y sus propias generaciones utilizando tokens especiales, llamados tokens de reflexión. La generación de tokens de reflexión hace que el modelo de lenguaje sea controlable durante la fase de inferencia, permitiéndole adaptar su comportamiento a diversos requisitos de tareas. Los experimentos muestran que Self-RAG (con 7B y 13B parámetros) supera significativamente a los modelos de lenguaje de última generación y a los modelos aumentados por recuperación en un conjunto diverso de tareas. Específicamente, Self-RAG supera a ChatGPT y a Llama2-chat aumentado por recuperación en tareas de preguntas y respuestas de dominio abierto, razonamiento y verificación de hechos, y muestra mejoras significativas en la factualidad y la precisión de las citas para generaciones de texto largo en comparación con estos modelos.

English

Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

Self-RAG: Aprendiendo a Recuperar, Generar y Criticar a través de la Autorreflexión

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Resumen

Support