Attribuzione delle Risposte Basata sugli Interni del Modello per una Generazione Aumentata dal Recupero Affidabile
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
June 19, 2024
Autori: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
cs.AI
Abstract
Garantire la verificabilità delle risposte del modello rappresenta una sfida fondamentale per la generazione aumentata da recupero (RAG) nel dominio del question answering (QA). Recentemente, è stato proposto il prompting di autocitazione per far sì che i grandi modelli linguistici (LLM) generino citazioni ai documenti di supporto insieme alle loro risposte. Tuttavia, gli LLM che si autocitano spesso faticano a rispettare il formato richiesto, fanno riferimento a fonti inesistenti e non riescono a riflettere fedelmente l'uso del contesto da parte degli LLM durante la generazione. In questo lavoro, presentiamo MIRAGE -- Model Internals-based RAG Explanations -- un approccio plug-and-play che utilizza gli interni del modello per un'attribuzione fedele delle risposte nelle applicazioni RAG. MIRAGE rileva i token delle risposte sensibili al contesto e li associa ai documenti recuperati che contribuiscono alla loro previsione attraverso metodi di salienza. Valutiamo il nostro approccio proposto su un dataset multilingue di QA estrattivo, riscontrando un elevato accordo con l'attribuzione umana delle risposte. Nel QA a risposta aperta, MIRAGE raggiunge una qualità e un'efficienza delle citazioni paragonabili all'autocitazione, consentendo anche un controllo più granulare dei parametri di attribuzione. La nostra valutazione qualitativa evidenzia la fedeltà delle attribuzioni di MIRAGE e sottolinea la promettente applicazione degli interni del modello per l'attribuzione delle risposte in RAG.
English
Ensuring the verifiability of model answers is a fundamental challenge for
retrieval-augmented generation (RAG) in the question answering (QA) domain.
Recently, self-citation prompting was proposed to make large language models
(LLMs) generate citations to supporting documents along with their answers.
However, self-citing LLMs often struggle to match the required format, refer to
non-existent sources, and fail to faithfully reflect LLMs' context usage
throughout the generation. In this work, we present MIRAGE --Model
Internals-based RAG Explanations -- a plug-and-play approach using model
internals for faithful answer attribution in RAG applications. MIRAGE detects
context-sensitive answer tokens and pairs them with retrieved documents
contributing to their prediction via saliency methods. We evaluate our proposed
approach on a multilingual extractive QA dataset, finding high agreement with
human answer attribution. On open-ended QA, MIRAGE achieves citation quality
and efficiency comparable to self-citation while also allowing for a
finer-grained control of attribution parameters. Our qualitative evaluation
highlights the faithfulness of MIRAGE's attributions and underscores the
promising application of model internals for RAG answer attribution.