RARE: Retrieval-bewusste Robustheitsbewertung für Retrieval-augmentierte Generierungssysteme

papers.abstract

Retrieval-Augmented Generation (RAG) verbessert die Aktualität und Faktentreue von Antworten. Bisherige Evaluierungen testen jedoch selten, wie gut diese Systeme mit realweltlichem Rauschen, Konflikten zwischen internen und extern abgerufenen Kontexten oder sich schnell ändernden Fakten umgehen können. Wir stellen Retrieval-Aware Robustness Evaluation (RARE) vor, ein einheitliches Framework und groß angelegtes Benchmark, das gemeinsam Abfrage- und Dokumentstörungen über dynamische, zeitkritische Korpora hinweg belastet. Ein zentrales Merkmal von RARE ist eine wissensgraphengetriebene Synthese-Pipeline (RARE-Get), die automatisch Einzel- und Mehrschrittrelationen aus dem angepassten Korpus extrahiert und mehrstufige Fragensätze ohne manuellen Eingriff generiert. Mithilfe dieser Pipeline erstellen wir einen Datensatz (RARE-Set), der 400 Experten-level-zeitkritische Dokumente aus den Bereichen Finanzen, Wirtschaft und Politik sowie 48.322 Fragen umfasst, deren Verteilung sich mit den zugrunde liegenden Quellen verändert. Um die Resilienz zu quantifizieren, formalisieren wir abrufbedingte Robustheitsmetriken (RARE-Met), die die Fähigkeit eines Modells erfassen, korrekt zu bleiben oder sich zu erholen, wenn Abfragen, Dokumente oder reale Abrufergebnisse systematisch verändert werden. Unsere Ergebnisse zeigen, dass RAG-Systeme überraschend anfällig für Störungen sind, wobei die Dokumentrobustheit unabhängig von der Größe oder Architektur des Generators durchweg der schwächste Punkt ist. RAG-Systeme zeigen durchweg eine geringere Robustheit bei Mehrschrittfragen im Vergleich zu Einzelschrittfragen über alle Domänen hinweg.

English

Retrieval-Augmented Generation (RAG) enhances recency and factuality in answers. However, existing evaluations rarely test how well these systems cope with real-world noise, conflicting between internal and external retrieved contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness Evaluation (RARE), a unified framework and large-scale benchmark that jointly stress-tests query and document perturbations over dynamic, time-sensitive corpora. One of the central features of RARE is a knowledge-graph-driven synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop relations from the customized corpus and generates multi-level question sets without manual intervention. Leveraging this pipeline, we construct a dataset (RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and policy documents and 48,322 questions whose distribution evolves as the underlying sources change. To quantify resilience, we formalize retrieval-conditioned robustness metrics (RARE-Met) that capture a model's ability to remain correct or recover when queries, documents, or real-world retrieval results are systematically altered. Our results show that RAG systems exhibit surprising vulnerability to perturbations, with document robustness consistently being the weakest point regardless of generator size or architecture. RAG systems consistently show lower robustness on multi-hop queries than single-hop queries across all domains.

RARE: Retrieval-bewusste Robustheitsbewertung für Retrieval-augmentierte Generierungssysteme

RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems

papers.abstract

Support