ChatPaper.aiChatPaper

RARE: Evaluación de Robustez Consciente de la Recuperación para Sistemas de Generación Aumentada por Recuperación

RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems

June 1, 2025
Autores: Yixiao Zeng, Tianyu Cao, Danqing Wang, Xinran Zhao, Zimeng Qiu, Morteza Ziyadi, Tongshuang Wu, Lei Li
cs.AI

Resumen

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora la actualidad y la factualidad de las respuestas. Sin embargo, las evaluaciones existentes rara vez prueban qué tan bien estos sistemas manejan el ruido del mundo real, los conflictos entre contextos recuperados internos y externos, o los hechos que cambian rápidamente. Presentamos la Evaluación de Robustez Consciente de la Recuperación (RARE, por sus siglas en inglés), un marco unificado y un benchmark a gran escala que somete a pruebas de estrés conjuntas las perturbaciones en consultas y documentos sobre corpus dinámicos y sensibles al tiempo. Una de las características centrales de RARE es una canalización de síntesis impulsada por grafos de conocimiento (RARE-Get) que extrae automáticamente relaciones de uno y varios saltos del corpus personalizado y genera conjuntos de preguntas de múltiples niveles sin intervención manual. Aprovechando esta canalización, construimos un conjunto de datos (RARE-Set) que abarca 400 documentos expertos sensibles al tiempo en finanzas, economía y política, y 48,322 preguntas cuya distribución evoluciona a medida que cambian las fuentes subyacentes. Para cuantificar la resiliencia, formalizamos métricas de robustez condicionadas por la recuperación (RARE-Met) que capturan la capacidad de un modelo para mantenerse correcto o recuperarse cuando las consultas, los documentos o los resultados de recuperación del mundo real se alteran sistemáticamente. Nuestros resultados muestran que los sistemas RAG exhiben una vulnerabilidad sorprendente a las perturbaciones, siendo la robustez de los documentos consistentemente el punto más débil, independientemente del tamaño o la arquitectura del generador. Los sistemas RAG muestran consistentemente una menor robustez en consultas de varios saltos en comparación con las de un solo salto en todos los dominios.
English
Retrieval-Augmented Generation (RAG) enhances recency and factuality in answers. However, existing evaluations rarely test how well these systems cope with real-world noise, conflicting between internal and external retrieved contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness Evaluation (RARE), a unified framework and large-scale benchmark that jointly stress-tests query and document perturbations over dynamic, time-sensitive corpora. One of the central features of RARE is a knowledge-graph-driven synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop relations from the customized corpus and generates multi-level question sets without manual intervention. Leveraging this pipeline, we construct a dataset (RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and policy documents and 48,322 questions whose distribution evolves as the underlying sources change. To quantify resilience, we formalize retrieval-conditioned robustness metrics (RARE-Met) that capture a model's ability to remain correct or recover when queries, documents, or real-world retrieval results are systematically altered. Our results show that RAG systems exhibit surprising vulnerability to perturbations, with document robustness consistently being the weakest point regardless of generator size or architecture. RAG systems consistently show lower robustness on multi-hop queries than single-hop queries across all domains.
PDF52June 3, 2025