신뢰할 수 있는 검색 증강 생성(Retrieval-Augmented Generation)을 위한 모델 내부 기반 답변 귀속
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
June 19, 2024
저자: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
cs.AI
초록
모델 답변의 검증 가능성을 보장하는 것은 질의응답(QA) 분야에서 검색 증강 생성(RAG)의 근본적인 과제입니다. 최근, 대규모 언어 모델(LLM)이 답변과 함께 지원 문서에 대한 인용을 생성하도록 하는 자기 인용 프롬프팅이 제안되었습니다. 그러나 자기 인용 LLM은 종종 요구된 형식에 맞추지 못하거나, 존재하지 않는 출처를 참조하며, 생성 과정 전반에 걸쳐 LLM의 문맥 사용을 충실히 반영하지 못하는 문제가 있습니다. 본 연구에서는 MIRAGE(Model Internals-based RAG Explanations)를 제안합니다. MIRAGE는 모델 내부를 활용한 플러그 앤 플레이 방식으로, RAG 애플리케이션에서 신뢰할 수 있는 답변 귀속을 가능하게 합니다. MIRAGE는 문맥에 민감한 답변 토큰을 감지하고, 이를 예측에 기여한 검색 문서와 짝짓기 위해 중요도 기법을 사용합니다. 우리는 제안된 접근 방식을 다국어 추출 QA 데이터셋에서 평가하여 인간의 답변 귀속과 높은 일치도를 확인했습니다. 개방형 QA에서는 MIRAGE가 자기 인용과 비슷한 수준의 인용 품질과 효율성을 달성하면서도, 귀속 매개변수를 더 세밀하게 제어할 수 있음을 보였습니다. 우리의 정성적 평가는 MIRAGE의 귀속이 충실함을 강조하며, RAG 답변 귀속을 위한 모델 내부의 유망한 응용 가능성을 부각시킵니다.
English
Ensuring the verifiability of model answers is a fundamental challenge for
retrieval-augmented generation (RAG) in the question answering (QA) domain.
Recently, self-citation prompting was proposed to make large language models
(LLMs) generate citations to supporting documents along with their answers.
However, self-citing LLMs often struggle to match the required format, refer to
non-existent sources, and fail to faithfully reflect LLMs' context usage
throughout the generation. In this work, we present MIRAGE --Model
Internals-based RAG Explanations -- a plug-and-play approach using model
internals for faithful answer attribution in RAG applications. MIRAGE detects
context-sensitive answer tokens and pairs them with retrieved documents
contributing to their prediction via saliency methods. We evaluate our proposed
approach on a multilingual extractive QA dataset, finding high agreement with
human answer attribution. On open-ended QA, MIRAGE achieves citation quality
and efficiency comparable to self-citation while also allowing for a
finer-grained control of attribution parameters. Our qualitative evaluation
highlights the faithfulness of MIRAGE's attributions and underscores the
promising application of model internals for RAG answer attribution.Summary
AI-Generated Summary