ChatPaper.aiChatPaper

Colapso de los Recuperadores Densos: Sesgos Cortos, Tempranos y Literales Superando la Evidencia Factual

Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

March 6, 2025
Autores: Mohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng
cs.AI

Resumen

Los modelos de recuperación densa se utilizan comúnmente en aplicaciones de Recuperación de Información (IR), como la Generación Aumentada por Recuperación (RAG). Dado que a menudo sirven como el primer paso en estos sistemas, su robustez es crucial para evitar fallos. En este trabajo, al reutilizar un conjunto de datos de extracción de relaciones (por ejemplo, Re-DocRED), diseñamos experimentos controlados para cuantificar el impacto de sesgos heurísticos, como favorecer documentos más cortos, en recuperadores como Dragon+ y Contriever. Nuestros hallazgos revelan vulnerabilidades significativas: los recuperadores a menudo dependen de patrones superficiales como priorizar en exceso los inicios de los documentos, documentos más cortos, entidades repetidas y coincidencias literales. Además, tienden a pasar por alto si el documento contiene la respuesta a la consulta, careciendo de una comprensión semántica profunda. Notablemente, cuando se combinan múltiples sesgos, los modelos exhiben una degradación catastrófica en el rendimiento, seleccionando el documento que contiene la respuesta en menos del 3% de los casos sobre un documento sesgado sin la respuesta. Además, demostramos que estos sesgos tienen consecuencias directas para aplicaciones posteriores como RAG, donde los documentos preferidos por el recuperador pueden engañar a los LLMs, resultando en una caída del 34% en el rendimiento en comparación con no proporcionar ningún documento.
English
Dense retrieval models are commonly used in Information Retrieval (IR) applications, such as Retrieval-Augmented Generation (RAG). Since they often serve as the first step in these systems, their robustness is critical to avoid failures. In this work, by repurposing a relation extraction dataset (e.g. Re-DocRED), we design controlled experiments to quantify the impact of heuristic biases, such as favoring shorter documents, in retrievers like Dragon+ and Contriever. Our findings reveal significant vulnerabilities: retrievers often rely on superficial patterns like over-prioritizing document beginnings, shorter documents, repeated entities, and literal matches. Additionally, they tend to overlook whether the document contains the query's answer, lacking deep semantic understanding. Notably, when multiple biases combine, models exhibit catastrophic performance degradation, selecting the answer-containing document in less than 3% of cases over a biased document without the answer. Furthermore, we show that these biases have direct consequences for downstream applications like RAG, where retrieval-preferred documents can mislead LLMs, resulting in a 34% performance drop than not providing any documents at all.

Summary

AI-Generated Summary

PDF42March 12, 2025