ChatPaper.aiChatPaper

Zusammenbruch von dichten Retrievern: Kurze, frühe und wörtliche Verzerrungen Übertrumpfen von faktischen Beweisen

Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

March 6, 2025
Autoren: Mohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng
cs.AI

Zusammenfassung

Dichte Retrieval-Modelle werden häufig in Anwendungen der Informationsbeschaffung (Information Retrieval, IR) eingesetzt, wie beispielsweise bei Retrieval-Augmented Generation (RAG). Da sie oft den ersten Schritt in diesen Systemen darstellen, ist ihre Robustheit entscheidend, um Fehler zu vermeiden. In dieser Arbeit nutzen wir einen Datensatz zur Relationsextraktion (z. B. Re-DocRED) neu, um kontrollierte Experimente zu entwerfen, die den Einfluss heuristischer Verzerrungen, wie die Bevorzugung kürzerer Dokumente, in Retrieval-Modellen wie Dragon+ und Contriever zu quantifizieren. Unsere Ergebnisse zeigen erhebliche Schwachstellen: Retrieval-Modelle verlassen sich oft auf oberflächliche Muster, wie die übermäßige Priorisierung von Dokumentanfängen, kürzeren Dokumenten, wiederholten Entitäten und wörtlichen Übereinstimmungen. Zudem neigen sie dazu, zu übersehen, ob das Dokument die Antwort auf die Anfrage enthält, und verfügen über kein tiefes semantisches Verständnis. Besonders bemerkenswert ist, dass bei der Kombination mehrerer Verzerrungen die Modelle einen katastrophalen Leistungsabfall zeigen und in weniger als 3 % der Fälle das antwortenthaltende Dokument gegenüber einem verzerrten Dokument ohne Antwort auswählen. Darüber hinaus zeigen wir, dass diese Verzerrungen direkte Auswirkungen auf nachgelagerte Anwendungen wie RAG haben, bei denen retrieval-bevorzugte Dokumente große Sprachmodelle (LLMs) in die Irre führen können, was zu einem Leistungsabfall von 34 % im Vergleich dazu führt, überhaupt keine Dokumente bereitzustellen.
English
Dense retrieval models are commonly used in Information Retrieval (IR) applications, such as Retrieval-Augmented Generation (RAG). Since they often serve as the first step in these systems, their robustness is critical to avoid failures. In this work, by repurposing a relation extraction dataset (e.g. Re-DocRED), we design controlled experiments to quantify the impact of heuristic biases, such as favoring shorter documents, in retrievers like Dragon+ and Contriever. Our findings reveal significant vulnerabilities: retrievers often rely on superficial patterns like over-prioritizing document beginnings, shorter documents, repeated entities, and literal matches. Additionally, they tend to overlook whether the document contains the query's answer, lacking deep semantic understanding. Notably, when multiple biases combine, models exhibit catastrophic performance degradation, selecting the answer-containing document in less than 3% of cases over a biased document without the answer. Furthermore, we show that these biases have direct consequences for downstream applications like RAG, where retrieval-preferred documents can mislead LLMs, resulting in a 34% performance drop than not providing any documents at all.

Summary

AI-Generated Summary

PDF42March 12, 2025