ChatPaper.aiChatPaper

Der Ablenkungseffekt: Verständnis irrelevanter Passagen in RAG

The Distracting Effect: Understanding Irrelevant Passages in RAG

May 11, 2025
Autoren: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI

Zusammenfassung

Ein bekanntes Problem bei Retrieval Augmented Generation (RAG) ist, dass abgerufene Passagen, die für die Anfrage irrelevant sind, manchmal das antwortgenerierende LLM ablenken und es dazu veranlassen, eine falsche Antwort zu liefern. In diesem Artikel beleuchten wir dieses Kernproblem und formulieren den ablenkenden Effekt einer Passage in Bezug auf eine Anfrage (und ein LLM). Wir bieten ein quantifizierbares Maß für den ablenkenden Effekt einer Passage und demonstrieren dessen Robustheit über verschiedene LLMs hinweg. Unsere Forschung führt neuartige Methoden zur Identifizierung und Nutzung von stark ablenkenden Passagen ein, um RAG-Systeme zu verbessern. Durch das Feinabstimmen von LLMs mit diesen sorgfältig ausgewählten ablenkenden Passagen erreichen wir eine Steigerung der Antwortgenauigkeit von bis zu 7,5 % im Vergleich zu Modellen, die auf herkömmlichen RAG-Datensätzen feinabgestimmt wurden. Unser Beitrag ist zweifach: Erstens gehen wir über die einfache binäre Klassifizierung irrelevanter Passagen als entweder völlig unzusammenhängend oder ablenkend hinaus, und zweitens entwickeln und analysieren wir mehrere Methoden zur Identifizierung von stark ablenkenden Passagen. Nach unserem Wissen hat keine andere Forschung ein derart umfassendes Framework zur Identifizierung und Nutzung von stark ablenkenden Passagen bereitgestellt.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that retrieved passages that are irrelevant to the query sometimes distract the answer-generating LLM, causing it to provide an incorrect response. In this paper, we shed light on this core issue and formulate the distracting effect of a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the distracting effect of a passage and demonstrate its robustness across LLMs. Our research introduces novel methods for identifying and using hard distracting passages to improve RAG systems. By fine-tuning LLMs with these carefully selected distracting passages, we achieve up to a 7.5% increase in answering accuracy compared to counterparts fine-tuned on conventional RAG datasets. Our contribution is two-fold: first, we move beyond the simple binary classification of irrelevant passages as either completely unrelated vs. distracting, and second, we develop and analyze multiple methods for finding hard distracting passages. To our knowledge, no other research has provided such a comprehensive framework for identifying and utilizing hard distracting passages.

Summary

AI-Generated Summary

PDF02May 21, 2025