Modellinterne Antwortzuordnung zur Vertrauenswürdigen Retrieval-gestützten Generierung

Zusammenfassung

Die Gewährleistung der Verifizierbarkeit von Modellantworten ist eine grundlegende Herausforderung für die abrufgestützte Generierung (RAG) im Bereich der Fragebeantwortung (QA). Kürzlich wurde die Selbstzitierungs-Aufforderung vorgeschlagen, um große Sprachmodelle (LLMs) dazu zu bringen, Zitate zu unterstützenden Dokumenten zusammen mit ihren Antworten zu generieren. Selbstzitierende LLMs haben jedoch oft Schwierigkeiten, das erforderliche Format einzuhalten, beziehen sich auf nicht existierende Quellen und schaffen es nicht, den Kontextgebrauch der LLMs während der Generierung treu widerzuspiegeln. In dieser Arbeit präsentieren wir MIRAGE - Model Internals-basierte RAG-Erklärungen - einen Plug-and-Play-Ansatz unter Verwendung von Modellinternas für eine treue Antwortzuweisung in RAG-Anwendungen. MIRAGE erkennt kontextsensitive Antwort-Token und paart sie mit abgerufenen Dokumenten, die über Salienzmethoden zu ihrer Vorhersage beitragen. Wir evaluieren unseren vorgeschlagenen Ansatz anhand eines mehrsprachigen extraktiven QA-Datensatzes und stellen fest, dass eine hohe Übereinstimmung mit der menschlichen Antwortzuweisung besteht. Bei offenen QA erreicht MIRAGE eine Zitierqualität und Effizienz, die mit der Selbstzitierung vergleichbar sind, und ermöglicht gleichzeitig eine feinere Steuerung der Zuweisungsparameter. Unsere qualitative Bewertung hebt die Treue der Zuweisungen von MIRAGE hervor und unterstreicht die vielversprechende Anwendung von Modellinternas für die Zuweisung von Antworten in RAG.

English

Ensuring the verifiability of model answers is a fundamental challenge for retrieval-augmented generation (RAG) in the question answering (QA) domain. Recently, self-citation prompting was proposed to make large language models (LLMs) generate citations to supporting documents along with their answers. However, self-citing LLMs often struggle to match the required format, refer to non-existent sources, and fail to faithfully reflect LLMs' context usage throughout the generation. In this work, we present MIRAGE --Model Internals-based RAG Explanations -- a plug-and-play approach using model internals for faithful answer attribution in RAG applications. MIRAGE detects context-sensitive answer tokens and pairs them with retrieved documents contributing to their prediction via saliency methods. We evaluate our proposed approach on a multilingual extractive QA dataset, finding high agreement with human answer attribution. On open-ended QA, MIRAGE achieves citation quality and efficiency comparable to self-citation while also allowing for a finer-grained control of attribution parameters. Our qualitative evaluation highlights the faithfulness of MIRAGE's attributions and underscores the promising application of model internals for RAG answer attribution.

Modellinterne Antwortzuordnung zur Vertrauenswürdigen Retrieval-gestützten Generierung

Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

Zusammenfassung

Support