ChatPaper.aiChatPaper

Het Afleidende Effect: Het Begrijpen van Irrelevante Passages in RAG

The Distracting Effect: Understanding Irrelevant Passages in RAG

May 11, 2025
Auteurs: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI

Samenvatting

Een bekend probleem bij Retrieval Augmented Generation (RAG) is dat opgehaalde passages die irrelevant zijn voor de query soms het antwoordgenererende LLM afleiden, waardoor het een incorrect antwoord geeft. In dit artikel belichten we dit kernprobleem en formuleren we het afleidende effect van een passage ten opzichte van een query (en een LLM). We bieden een kwantificeerbare maat voor het afleidende effect van een passage en tonen de robuustheid ervan aan over verschillende LLMs. Ons onderzoek introduceert nieuwe methoden voor het identificeren en gebruiken van moeilijke afleidende passages om RAG-systemen te verbeteren. Door LLMs te fine-tunen met deze zorgvuldig geselecteerde afleidende passages, behalen we een verbetering van tot wel 7,5% in antwoordnauwkeurigheid vergeleken met modellen die zijn getraind op conventionele RAG-datasets. Onze bijdrage is tweeledig: ten eerste gaan we verder dan de eenvoudige binaire classificatie van irrelevante passages als volledig ongerelateerd versus afleidend, en ten tweede ontwikkelen en analyseren we meerdere methoden voor het vinden van moeilijke afleidende passages. Voor zover wij weten, heeft geen ander onderzoek zo’n uitgebreid kader geboden voor het identificeren en benutten van moeilijke afleidende passages.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that retrieved passages that are irrelevant to the query sometimes distract the answer-generating LLM, causing it to provide an incorrect response. In this paper, we shed light on this core issue and formulate the distracting effect of a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the distracting effect of a passage and demonstrate its robustness across LLMs. Our research introduces novel methods for identifying and using hard distracting passages to improve RAG systems. By fine-tuning LLMs with these carefully selected distracting passages, we achieve up to a 7.5% increase in answering accuracy compared to counterparts fine-tuned on conventional RAG datasets. Our contribution is two-fold: first, we move beyond the simple binary classification of irrelevant passages as either completely unrelated vs. distracting, and second, we develop and analyze multiple methods for finding hard distracting passages. To our knowledge, no other research has provided such a comprehensive framework for identifying and utilizing hard distracting passages.

Summary

AI-Generated Summary

PDF02May 21, 2025