Atribuição de Respostas Baseada em Internos do Modelo para Geração Aumentada por Recuperação Confiável
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
June 19, 2024
Autores: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
cs.AI
Resumo
Garantir a verificabilidade das respostas dos modelos é um desafio fundamental para a geração aumentada por recuperação (RAG) no domínio de questionamento e resposta (QA). Recentemente, foi proposta a técnica de autociitação para fazer com que grandes modelos de linguagem (LLMs) gerem citações de documentos de suporte juntamente com suas respostas. No entanto, LLMs que realizam autociitação frequentemente têm dificuldade em seguir o formato exigido, referenciam fontes inexistentes e falham em refletir fielmente o uso do contexto pelos LLMs durante a geração. Neste trabalho, apresentamos o MIRAGE -- Explicações de RAG Baseadas em Internos do Modelo -- uma abordagem plug-and-play que utiliza os internos do modelo para atribuição fiel de respostas em aplicações de RAG. O MIRAGE detecta tokens de resposta sensíveis ao contexto e os associa a documentos recuperados que contribuem para sua predição por meio de métodos de saliência. Avaliamos nossa abordagem proposta em um conjunto de dados multilingue de QA extrativo, encontrando alta concordância com a atribuição de respostas feita por humanos. Em QA de resposta aberta, o MIRAGE alcança qualidade e eficiência de citação comparáveis à autociitação, além de permitir um controle mais refinado dos parâmetros de atribuição. Nossa avaliação qualitativa destaca a fidelidade das atribuições do MIRAGE e ressalta a aplicação promissora dos internos do modelo para a atribuição de respostas em RAG.
English
Ensuring the verifiability of model answers is a fundamental challenge for
retrieval-augmented generation (RAG) in the question answering (QA) domain.
Recently, self-citation prompting was proposed to make large language models
(LLMs) generate citations to supporting documents along with their answers.
However, self-citing LLMs often struggle to match the required format, refer to
non-existent sources, and fail to faithfully reflect LLMs' context usage
throughout the generation. In this work, we present MIRAGE --Model
Internals-based RAG Explanations -- a plug-and-play approach using model
internals for faithful answer attribution in RAG applications. MIRAGE detects
context-sensitive answer tokens and pairs them with retrieved documents
contributing to their prediction via saliency methods. We evaluate our proposed
approach on a multilingual extractive QA dataset, finding high agreement with
human answer attribution. On open-ended QA, MIRAGE achieves citation quality
and efficiency comparable to self-citation while also allowing for a
finer-grained control of attribution parameters. Our qualitative evaluation
highlights the faithfulness of MIRAGE's attributions and underscores the
promising application of model internals for RAG answer attribution.