Atribución de Respuestas Basada en los Componentes Internos del Modelo para la Generación Aumentada por Recuperación Confiable

Resumen

Garantizar la verificabilidad de las respuestas del modelo es un desafío fundamental para la generación aumentada por recuperación (RAG, por sus siglas en inglés) en el dominio de respuesta a preguntas (QA, por sus siglas en inglés). Recientemente, se propuso el auto-citado mediante indicaciones (self-citation prompting) para que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) generen citas a documentos de apoyo junto con sus respuestas. Sin embargo, los LLMs que se auto-citan a menudo tienen dificultades para seguir el formato requerido, hacen referencia a fuentes inexistentes y no reflejan fielmente el uso del contexto por parte de los LLMs durante la generación. En este trabajo, presentamos MIRAGE (Model Internals-based RAG Explanations), un enfoque plug-and-play que utiliza los componentes internos del modelo para una atribución fiel de respuestas en aplicaciones de RAG. MIRAGE detecta tokens de respuesta sensibles al contexto y los empareja con documentos recuperados que contribuyen a su predicción mediante métodos de prominencia. Evaluamos nuestro enfoque propuesto en un conjunto de datos multilingüe de QA extractiva, encontrando una alta concordancia con la atribución de respuestas realizada por humanos. En QA de respuesta abierta, MIRAGE logra una calidad y eficiencia en las citas comparable al auto-citado, además de permitir un control más granular de los parámetros de atribución. Nuestra evaluación cualitativa destaca la fidelidad de las atribuciones de MIRAGE y subraya la prometedora aplicación de los componentes internos del modelo para la atribución de respuestas en RAG.

English

Ensuring the verifiability of model answers is a fundamental challenge for retrieval-augmented generation (RAG) in the question answering (QA) domain. Recently, self-citation prompting was proposed to make large language models (LLMs) generate citations to supporting documents along with their answers. However, self-citing LLMs often struggle to match the required format, refer to non-existent sources, and fail to faithfully reflect LLMs' context usage throughout the generation. In this work, we present MIRAGE --Model Internals-based RAG Explanations -- a plug-and-play approach using model internals for faithful answer attribution in RAG applications. MIRAGE detects context-sensitive answer tokens and pairs them with retrieved documents contributing to their prediction via saliency methods. We evaluate our proposed approach on a multilingual extractive QA dataset, finding high agreement with human answer attribution. On open-ended QA, MIRAGE achieves citation quality and efficiency comparable to self-citation while also allowing for a finer-grained control of attribution parameters. Our qualitative evaluation highlights the faithfulness of MIRAGE's attributions and underscores the promising application of model internals for RAG answer attribution.

Atribución de Respuestas Basada en los Componentes Internos del Modelo para la Generación Aumentada por Recuperación Confiable

Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

Resumen

Support