Modellinterne Antwortzuordnung zur Vertrauenswürdigen Retrieval-gestützten Generierung
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
June 19, 2024
Autoren: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
cs.AI
Zusammenfassung
Die Gewährleistung der Verifizierbarkeit von Modellantworten ist eine grundlegende Herausforderung für die abrufgestützte Generierung (RAG) im Bereich der Fragebeantwortung (QA). Kürzlich wurde die Selbstzitierungs-Aufforderung vorgeschlagen, um große Sprachmodelle (LLMs) dazu zu bringen, Zitate zu unterstützenden Dokumenten zusammen mit ihren Antworten zu generieren. Selbstzitierende LLMs haben jedoch oft Schwierigkeiten, das erforderliche Format einzuhalten, beziehen sich auf nicht existierende Quellen und schaffen es nicht, den Kontextgebrauch der LLMs während der Generierung treu widerzuspiegeln. In dieser Arbeit präsentieren wir MIRAGE - Model Internals-basierte RAG-Erklärungen - einen Plug-and-Play-Ansatz unter Verwendung von Modellinternas für eine treue Antwortzuweisung in RAG-Anwendungen. MIRAGE erkennt kontextsensitive Antwort-Token und paart sie mit abgerufenen Dokumenten, die über Salienzmethoden zu ihrer Vorhersage beitragen. Wir evaluieren unseren vorgeschlagenen Ansatz anhand eines mehrsprachigen extraktiven QA-Datensatzes und stellen fest, dass eine hohe Übereinstimmung mit der menschlichen Antwortzuweisung besteht. Bei offenen QA erreicht MIRAGE eine Zitierqualität und Effizienz, die mit der Selbstzitierung vergleichbar sind, und ermöglicht gleichzeitig eine feinere Steuerung der Zuweisungsparameter. Unsere qualitative Bewertung hebt die Treue der Zuweisungen von MIRAGE hervor und unterstreicht die vielversprechende Anwendung von Modellinternas für die Zuweisung von Antworten in RAG.
English
Ensuring the verifiability of model answers is a fundamental challenge for
retrieval-augmented generation (RAG) in the question answering (QA) domain.
Recently, self-citation prompting was proposed to make large language models
(LLMs) generate citations to supporting documents along with their answers.
However, self-citing LLMs often struggle to match the required format, refer to
non-existent sources, and fail to faithfully reflect LLMs' context usage
throughout the generation. In this work, we present MIRAGE --Model
Internals-based RAG Explanations -- a plug-and-play approach using model
internals for faithful answer attribution in RAG applications. MIRAGE detects
context-sensitive answer tokens and pairs them with retrieved documents
contributing to their prediction via saliency methods. We evaluate our proposed
approach on a multilingual extractive QA dataset, finding high agreement with
human answer attribution. On open-ended QA, MIRAGE achieves citation quality
and efficiency comparable to self-citation while also allowing for a
finer-grained control of attribution parameters. Our qualitative evaluation
highlights the faithfulness of MIRAGE's attributions and underscores the
promising application of model internals for RAG answer attribution.Summary
AI-Generated Summary