ChatPaper.aiChatPaper

El Efecto de Distracción: Comprendiendo los Pasajes Irrelevantes en RAG

The Distracting Effect: Understanding Irrelevant Passages in RAG

May 11, 2025
Autores: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI

Resumen

Un problema bien conocido en la Generación Aumentada por Recuperación (RAG) es que los pasajes recuperados que son irrelevantes para la consulta a veces distraen al modelo de lenguaje generativo (LLM), lo que provoca que proporcione una respuesta incorrecta. En este artículo, arrojamos luz sobre este problema central y formulamos el efecto distractor de un pasaje con respecto a una consulta (y un LLM). Proporcionamos una medida cuantificable del efecto distractor de un pasaje y demostramos su robustez en diferentes LLMs. Nuestra investigación introduce métodos novedosos para identificar y utilizar pasajes distractores difíciles con el fin de mejorar los sistemas RAG. Al ajustar finamente los LLMs con estos pasajes distractores cuidadosamente seleccionados, logramos un aumento de hasta un 7.5% en la precisión de las respuestas en comparación con modelos ajustados en conjuntos de datos RAG convencionales. Nuestra contribución es doble: primero, vamos más allá de la simple clasificación binaria de pasajes irrelevantes como completamente no relacionados frente a distractores, y segundo, desarrollamos y analizamos múltiples métodos para encontrar pasajes distractores difíciles. Hasta donde sabemos, ninguna otra investigación ha proporcionado un marco tan completo para identificar y utilizar pasajes distractores difíciles.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that retrieved passages that are irrelevant to the query sometimes distract the answer-generating LLM, causing it to provide an incorrect response. In this paper, we shed light on this core issue and formulate the distracting effect of a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the distracting effect of a passage and demonstrate its robustness across LLMs. Our research introduces novel methods for identifying and using hard distracting passages to improve RAG systems. By fine-tuning LLMs with these carefully selected distracting passages, we achieve up to a 7.5% increase in answering accuracy compared to counterparts fine-tuned on conventional RAG datasets. Our contribution is two-fold: first, we move beyond the simple binary classification of irrelevant passages as either completely unrelated vs. distracting, and second, we develop and analyze multiple methods for finding hard distracting passages. To our knowledge, no other research has provided such a comprehensive framework for identifying and utilizing hard distracting passages.

Summary

AI-Generated Summary

PDF02May 21, 2025