RARE: Retrieval-bewusste Robustheitsbewertung für Retrieval-augmentierte Generierungssysteme
RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems
June 1, 2025
Autoren: Yixiao Zeng, Tianyu Cao, Danqing Wang, Xinran Zhao, Zimeng Qiu, Morteza Ziyadi, Tongshuang Wu, Lei Li
cs.AI
Zusammenfassung
Retrieval-Augmented Generation (RAG) verbessert die Aktualität und Faktentreue von Antworten. Bisherige Evaluierungen testen jedoch selten, wie gut diese Systeme mit realweltlichem Rauschen, Konflikten zwischen internen und extern abgerufenen Kontexten oder sich schnell ändernden Fakten umgehen können. Wir stellen Retrieval-Aware Robustness Evaluation (RARE) vor, ein einheitliches Framework und groß angelegtes Benchmark, das gemeinsam Abfrage- und Dokumentstörungen über dynamische, zeitkritische Korpora hinweg belastet. Ein zentrales Merkmal von RARE ist eine wissensgraphengetriebene Synthese-Pipeline (RARE-Get), die automatisch Einzel- und Mehrschrittrelationen aus dem angepassten Korpus extrahiert und mehrstufige Fragensätze ohne manuellen Eingriff generiert. Mithilfe dieser Pipeline erstellen wir einen Datensatz (RARE-Set), der 400 Experten-level-zeitkritische Dokumente aus den Bereichen Finanzen, Wirtschaft und Politik sowie 48.322 Fragen umfasst, deren Verteilung sich mit den zugrunde liegenden Quellen verändert. Um die Resilienz zu quantifizieren, formalisieren wir abrufbedingte Robustheitsmetriken (RARE-Met), die die Fähigkeit eines Modells erfassen, korrekt zu bleiben oder sich zu erholen, wenn Abfragen, Dokumente oder reale Abrufergebnisse systematisch verändert werden. Unsere Ergebnisse zeigen, dass RAG-Systeme überraschend anfällig für Störungen sind, wobei die Dokumentrobustheit unabhängig von der Größe oder Architektur des Generators durchweg der schwächste Punkt ist. RAG-Systeme zeigen durchweg eine geringere Robustheit bei Mehrschrittfragen im Vergleich zu Einzelschrittfragen über alle Domänen hinweg.
English
Retrieval-Augmented Generation (RAG) enhances recency and factuality in
answers. However, existing evaluations rarely test how well these systems cope
with real-world noise, conflicting between internal and external retrieved
contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness
Evaluation (RARE), a unified framework and large-scale benchmark that jointly
stress-tests query and document perturbations over dynamic, time-sensitive
corpora. One of the central features of RARE is a knowledge-graph-driven
synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop
relations from the customized corpus and generates multi-level question sets
without manual intervention. Leveraging this pipeline, we construct a dataset
(RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and
policy documents and 48,322 questions whose distribution evolves as the
underlying sources change. To quantify resilience, we formalize
retrieval-conditioned robustness metrics (RARE-Met) that capture a model's
ability to remain correct or recover when queries, documents, or real-world
retrieval results are systematically altered. Our results show that RAG systems
exhibit surprising vulnerability to perturbations, with document robustness
consistently being the weakest point regardless of generator size or
architecture. RAG systems consistently show lower robustness on multi-hop
queries than single-hop queries across all domains.