Атрибуция ответов на основе внутренних характеристик модели для надежного увеличения генерации запросов.

Аннотация

Обеспечение проверяемости модельных ответов является фундаментальным вызовом для расширенной генерации с использованием информации из поиска (RAG) в области вопросно-ответных систем (QA). Недавно было предложено использование самоцитирования для того, чтобы большие языковые модели (LLM) генерировали ссылки на поддерживающие документы наряду с ответами. Однако самоцитирующиеся LLM часто испытывают трудности с соответствием требуемому формату, ссылками на несуществующие источники и не могут точно отражать контекстное использование LLM на протяжении генерации. В данной работе мы представляем MIRAGE -- Модельные внутренности для объяснений в RAG -- подход "включить и использовать" с использованием внутренностей модели для точной атрибуции ответов в приложениях RAG. MIRAGE обнаруживает контекстно-чувствительные токены ответов и связывает их с извлеченными документами, вносящими вклад в их предсказание с помощью методов выделения значимости. Мы оцениваем наш предложенный подход на многоязычном наборе данных для извлекающих QA, обнаруживая высокое согласие с атрибуцией ответов человеком. В открытых QA MIRAGE достигает качества и эффективности цитирования, сравнимых с самоцитированием, а также позволяет более тонкое управление параметрами атрибуции. Наша качественная оценка подчеркивает правдивость атрибуций MIRAGE и подчеркивает перспективное применение внутренностей модели для атрибуции ответов в RAG.

English

Ensuring the verifiability of model answers is a fundamental challenge for retrieval-augmented generation (RAG) in the question answering (QA) domain. Recently, self-citation prompting was proposed to make large language models (LLMs) generate citations to supporting documents along with their answers. However, self-citing LLMs often struggle to match the required format, refer to non-existent sources, and fail to faithfully reflect LLMs' context usage throughout the generation. In this work, we present MIRAGE --Model Internals-based RAG Explanations -- a plug-and-play approach using model internals for faithful answer attribution in RAG applications. MIRAGE detects context-sensitive answer tokens and pairs them with retrieved documents contributing to their prediction via saliency methods. We evaluate our proposed approach on a multilingual extractive QA dataset, finding high agreement with human answer attribution. On open-ended QA, MIRAGE achieves citation quality and efficiency comparable to self-citation while also allowing for a finer-grained control of attribution parameters. Our qualitative evaluation highlights the faithfulness of MIRAGE's attributions and underscores the promising application of model internals for RAG answer attribution.

Атрибуция ответов на основе внутренних характеристик модели для надежного увеличения генерации запросов.

Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

Аннотация

Support