RARE: Avaliação de Robustez com Consciência de Recuperação para Sistemas de Geração Aumentada por Recuperação
RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems
June 1, 2025
Autores: Yixiao Zeng, Tianyu Cao, Danqing Wang, Xinran Zhao, Zimeng Qiu, Morteza Ziyadi, Tongshuang Wu, Lei Li
cs.AI
Resumo
A Geração Aumentada por Recuperação (RAG) melhora a atualidade e a factualidade das respostas. No entanto, as avaliações existentes raramente testam quão bem esses sistemas lidam com ruídos do mundo real, conflitos entre contextos recuperados internos e externos, ou fatos que mudam rapidamente. Introduzimos a Avaliação de Robustez Consciente de Recuperação (RARE), uma estrutura unificada e um benchmark em larga escala que testa conjuntamente perturbações em consultas e documentos em corpora dinâmicos e sensíveis ao tempo. Uma das características centrais da RARE é um pipeline de síntese orientado por grafo de conhecimento (RARE-Get) que extrai automaticamente relações de salto único e múltiplos saltos do corpus personalizado e gera conjuntos de perguntas de múltiplos níveis sem intervenção manual. Aproveitando esse pipeline, construímos um conjunto de dados (RARE-Set) abrangendo 400 documentos especializados e sensíveis ao tempo de finanças, economia e política, e 48.322 perguntas cuja distribuição evolui à medida que as fontes subjacentes mudam. Para quantificar a resiliência, formalizamos métricas de robustez condicionadas à recuperação (RARE-Met) que capturam a capacidade de um modelo de permanecer correto ou se recuperar quando consultas, documentos ou resultados de recuperação do mundo real são sistematicamente alterados. Nossos resultados mostram que os sistemas RAG exibem uma vulnerabilidade surpreendente a perturbações, com a robustez de documentos consistentemente sendo o ponto mais fraco, independentemente do tamanho ou arquitetura do gerador. Os sistemas RAG consistentemente mostram menor robustez em consultas de múltiplos saltos em comparação com consultas de salto único em todos os domínios.
English
Retrieval-Augmented Generation (RAG) enhances recency and factuality in
answers. However, existing evaluations rarely test how well these systems cope
with real-world noise, conflicting between internal and external retrieved
contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness
Evaluation (RARE), a unified framework and large-scale benchmark that jointly
stress-tests query and document perturbations over dynamic, time-sensitive
corpora. One of the central features of RARE is a knowledge-graph-driven
synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop
relations from the customized corpus and generates multi-level question sets
without manual intervention. Leveraging this pipeline, we construct a dataset
(RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and
policy documents and 48,322 questions whose distribution evolves as the
underlying sources change. To quantify resilience, we formalize
retrieval-conditioned robustness metrics (RARE-Met) that capture a model's
ability to remain correct or recover when queries, documents, or real-world
retrieval results are systematically altered. Our results show that RAG systems
exhibit surprising vulnerability to perturbations, with document robustness
consistently being the weakest point regardless of generator size or
architecture. RAG systems consistently show lower robustness on multi-hop
queries than single-hop queries across all domains.