L'effet de distraction : Comprendre les passages non pertinents dans les systèmes RAG
The Distracting Effect: Understanding Irrelevant Passages in RAG
May 11, 2025
Auteurs: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI
Résumé
Un problème bien connu du Retrieval Augmented Generation (RAG) est que les passages récupérés qui ne sont pas pertinents par rapport à la requête peuvent parfois distraire le LLM générateur de réponses, l'amenant à fournir une réponse incorrecte. Dans cet article, nous mettons en lumière ce problème central et formulons l'effet distracteur d'un passage par rapport à une requête (et à un LLM). Nous proposons une mesure quantifiable de l'effet distracteur d'un passage et démontrons sa robustesse à travers différents LLMs.
Notre recherche introduit des méthodes novatrices pour identifier et utiliser des passages fortement distracteurs afin d'améliorer les systèmes RAG. En affinant les LLMs avec ces passages soigneusement sélectionnés, nous obtenons une augmentation allant jusqu'à 7,5 % de la précision des réponses par rapport aux modèles affinés sur des ensembles de données RAG conventionnels. Notre contribution est double : premièrement, nous allons au-delà de la simple classification binaire des passages non pertinents comme étant soit complètement sans rapport, soit distracteurs, et deuxièmement, nous développons et analysons plusieurs méthodes pour identifier des passages fortement distracteurs. À notre connaissance, aucune autre recherche n'a fourni un cadre aussi complet pour l'identification et l'utilisation de passages fortement distracteurs.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that
retrieved passages that are irrelevant to the query sometimes distract the
answer-generating LLM, causing it to provide an incorrect response. In this
paper, we shed light on this core issue and formulate the distracting effect of
a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the
distracting effect of a passage and demonstrate its robustness across LLMs.
Our research introduces novel methods for identifying and using hard
distracting passages to improve RAG systems. By fine-tuning LLMs with these
carefully selected distracting passages, we achieve up to a 7.5% increase in
answering accuracy compared to counterparts fine-tuned on conventional RAG
datasets. Our contribution is two-fold: first, we move beyond the simple binary
classification of irrelevant passages as either completely unrelated vs.
distracting, and second, we develop and analyze multiple methods for finding
hard distracting passages. To our knowledge, no other research has provided
such a comprehensive framework for identifying and utilizing hard distracting
passages.Summary
AI-Generated Summary