ChatPaper.aiChatPaper

RARE: Retrieval-Aware Robustheidsevaluatie voor Retrieval-Augmented Generatiesystemen

RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems

June 1, 2025
Auteurs: Yixiao Zeng, Tianyu Cao, Danqing Wang, Xinran Zhao, Zimeng Qiu, Morteza Ziyadi, Tongshuang Wu, Lei Li
cs.AI

Samenvatting

Retrieval-Augmented Generation (RAG) verbetert de actualiteit en feitelijkheid van antwoorden. Bestaande evaluaties testen echter zelden hoe goed deze systemen omgaan met real-world ruis, conflicten tussen interne en externe opgehaalde contexten, of snel veranderende feiten. We introduceren Retrieval-Aware Robustness Evaluation (RARE), een uniform raamwerk en grootschalige benchmark die gezamenlijk stresstests uitvoert op query- en documentverstoringen over dynamische, tijdgevoelige corpora. Een van de centrale kenmerken van RARE is een knowledge-graph-gestuurde synthesepijplijn (RARE-Get) die automatisch enkelvoudige en multi-hop relaties extraheert uit het aangepaste corpus en vraagensets op meerdere niveaus genereert zonder handmatige interventie. Met behulp van deze pijplijn construeren we een dataset (RARE-Set) die 400 expertniveau tijdgevoelige documenten over financiën, economie en beleid omvat, evenals 48.322 vragen waarvan de distributie evolueert naarmate de onderliggende bronnen veranderen. Om veerkracht te kwantificeren, formaliseren we retrieval-geconditioneerde robuustheidsmetrieken (RARE-Met) die het vermogen van een model vastleggen om correct te blijven of te herstellen wanneer queries, documenten of real-world retrievalresultaten systematisch worden gewijzigd. Onze resultaten tonen aan dat RAG-systemen verrassend kwetsbaar zijn voor verstoringen, waarbij documentrobustheid consistent het zwakste punt blijft, ongeacht de grootte of architectuur van de generator. RAG-systemen vertonen consistent een lagere robuustheid op multi-hop queries dan op enkelvoudige queries in alle domeinen.
English
Retrieval-Augmented Generation (RAG) enhances recency and factuality in answers. However, existing evaluations rarely test how well these systems cope with real-world noise, conflicting between internal and external retrieved contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness Evaluation (RARE), a unified framework and large-scale benchmark that jointly stress-tests query and document perturbations over dynamic, time-sensitive corpora. One of the central features of RARE is a knowledge-graph-driven synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop relations from the customized corpus and generates multi-level question sets without manual intervention. Leveraging this pipeline, we construct a dataset (RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and policy documents and 48,322 questions whose distribution evolves as the underlying sources change. To quantify resilience, we formalize retrieval-conditioned robustness metrics (RARE-Met) that capture a model's ability to remain correct or recover when queries, documents, or real-world retrieval results are systematically altered. Our results show that RAG systems exhibit surprising vulnerability to perturbations, with document robustness consistently being the weakest point regardless of generator size or architecture. RAG systems consistently show lower robustness on multi-hop queries than single-hop queries across all domains.
PDF52June 3, 2025