信頼性の高い検索拡張生成のためのモデル内部構造に基づく回答帰属
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
June 19, 2024
著者: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
cs.AI
要旨
モデル回答の検証可能性を確保することは、質問応答(QA)領域における検索拡張生成(RAG)の基本的な課題です。最近、大規模言語モデル(LLM)が回答とともに支持文書への引用を生成するよう促す自己引用プロンプトが提案されました。しかし、自己引用を行うLLMは、必要な形式に一致させるのに苦労し、存在しないソースを参照し、生成全体を通じてLLMの文脈使用を忠実に反映できないことがよくあります。本研究では、MIRAGE(Model Internals-based RAG Explanations)を紹介します。これは、モデルの内部情報を使用してRAGアプリケーションにおける忠実な回答帰属を行うプラグアンドプレイアプローチです。MIRAGEは、文脈に敏感な回答トークンを検出し、サリエンシー手法を通じてそれらの予測に寄与する検索文書とペアリングします。多言語抽出型QAデータセットで提案手法を評価し、人間による回答帰属との高い一致率を確認しました。自由回答型QAでは、MIRAGEは自己引用と同等の引用品質と効率を達成し、さらに帰属パラメータのより細かい制御を可能にします。定性的評価では、MIRAGEの帰属の忠実性が強調され、RAG回答帰属におけるモデル内部情報の有望な応用が示されました。
English
Ensuring the verifiability of model answers is a fundamental challenge for
retrieval-augmented generation (RAG) in the question answering (QA) domain.
Recently, self-citation prompting was proposed to make large language models
(LLMs) generate citations to supporting documents along with their answers.
However, self-citing LLMs often struggle to match the required format, refer to
non-existent sources, and fail to faithfully reflect LLMs' context usage
throughout the generation. In this work, we present MIRAGE --Model
Internals-based RAG Explanations -- a plug-and-play approach using model
internals for faithful answer attribution in RAG applications. MIRAGE detects
context-sensitive answer tokens and pairs them with retrieved documents
contributing to their prediction via saliency methods. We evaluate our proposed
approach on a multilingual extractive QA dataset, finding high agreement with
human answer attribution. On open-ended QA, MIRAGE achieves citation quality
and efficiency comparable to self-citation while also allowing for a
finer-grained control of attribution parameters. Our qualitative evaluation
highlights the faithfulness of MIRAGE's attributions and underscores the
promising application of model internals for RAG answer attribution.Summary
AI-Generated Summary