Atribución de Respuestas Basada en los Componentes Internos del Modelo para la Generación Aumentada por Recuperación Confiable
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
June 19, 2024
Autores: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
cs.AI
Resumen
Garantizar la verificabilidad de las respuestas del modelo es un desafío fundamental para la generación aumentada por recuperación (RAG, por sus siglas en inglés) en el dominio de respuesta a preguntas (QA, por sus siglas en inglés). Recientemente, se propuso el auto-citado mediante indicaciones (self-citation prompting) para que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) generen citas a documentos de apoyo junto con sus respuestas. Sin embargo, los LLMs que se auto-citan a menudo tienen dificultades para seguir el formato requerido, hacen referencia a fuentes inexistentes y no reflejan fielmente el uso del contexto por parte de los LLMs durante la generación. En este trabajo, presentamos MIRAGE (Model Internals-based RAG Explanations), un enfoque plug-and-play que utiliza los componentes internos del modelo para una atribución fiel de respuestas en aplicaciones de RAG. MIRAGE detecta tokens de respuesta sensibles al contexto y los empareja con documentos recuperados que contribuyen a su predicción mediante métodos de prominencia. Evaluamos nuestro enfoque propuesto en un conjunto de datos multilingüe de QA extractiva, encontrando una alta concordancia con la atribución de respuestas realizada por humanos. En QA de respuesta abierta, MIRAGE logra una calidad y eficiencia en las citas comparable al auto-citado, además de permitir un control más granular de los parámetros de atribución. Nuestra evaluación cualitativa destaca la fidelidad de las atribuciones de MIRAGE y subraya la prometedora aplicación de los componentes internos del modelo para la atribución de respuestas en RAG.
English
Ensuring the verifiability of model answers is a fundamental challenge for
retrieval-augmented generation (RAG) in the question answering (QA) domain.
Recently, self-citation prompting was proposed to make large language models
(LLMs) generate citations to supporting documents along with their answers.
However, self-citing LLMs often struggle to match the required format, refer to
non-existent sources, and fail to faithfully reflect LLMs' context usage
throughout the generation. In this work, we present MIRAGE --Model
Internals-based RAG Explanations -- a plug-and-play approach using model
internals for faithful answer attribution in RAG applications. MIRAGE detects
context-sensitive answer tokens and pairs them with retrieved documents
contributing to their prediction via saliency methods. We evaluate our proposed
approach on a multilingual extractive QA dataset, finding high agreement with
human answer attribution. On open-ended QA, MIRAGE achieves citation quality
and efficiency comparable to self-citation while also allowing for a
finer-grained control of attribution parameters. Our qualitative evaluation
highlights the faithfulness of MIRAGE's attributions and underscores the
promising application of model internals for RAG answer attribution.Summary
AI-Generated Summary