Эффект отвлечения: понимание нерелевантных фрагментов в RAG
The Distracting Effect: Understanding Irrelevant Passages in RAG
May 11, 2025
Авторы: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI
Аннотация
Известная проблема Retrieval Augmented Generation (RAG) заключается в том, что извлечённые отрывки, не относящиеся к запросу, иногда отвлекают языковую модель (LLM), генерирующую ответ, что приводит к некорректному результату. В данной работе мы исследуем эту ключевую проблему и формализуем эффект отвлечения отрывка относительно запроса (и LLM). Мы предлагаем количественную меру эффекта отвлечения отрывка и демонстрируем её устойчивость для различных LLM.
Наше исследование представляет новые методы для выявления и использования сложных отвлекающих отрывков с целью улучшения систем RAG. Благодаря тонкой настройке LLM на тщательно отобранных отвлекающих отрывках мы достигаем повышения точности ответов до 7,5% по сравнению с моделями, настроенными на стандартных наборах данных RAG. Наш вклад заключается в двух аспектах: во-первых, мы выходим за рамки простой бинарной классификации нерелевантных отрывков как полностью несвязанных или отвлекающих, и во-вторых, разрабатываем и анализируем несколько методов для поиска сложных отвлекающих отрывков. Насколько нам известно, ни одно другое исследование не предлагало столь всеобъемлющей структуры для выявления и использования сложных отвлекающих отрывков.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that
retrieved passages that are irrelevant to the query sometimes distract the
answer-generating LLM, causing it to provide an incorrect response. In this
paper, we shed light on this core issue and formulate the distracting effect of
a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the
distracting effect of a passage and demonstrate its robustness across LLMs.
Our research introduces novel methods for identifying and using hard
distracting passages to improve RAG systems. By fine-tuning LLMs with these
carefully selected distracting passages, we achieve up to a 7.5% increase in
answering accuracy compared to counterparts fine-tuned on conventional RAG
datasets. Our contribution is two-fold: first, we move beyond the simple binary
classification of irrelevant passages as either completely unrelated vs.
distracting, and second, we develop and analyze multiple methods for finding
hard distracting passages. To our knowledge, no other research has provided
such a comprehensive framework for identifying and utilizing hard distracting
passages.Summary
AI-Generated Summary