RARE: Avaliação de Robustez com Consciência de Recuperação para Sistemas de Geração Aumentada por Recuperação

Resumo

A Geração Aumentada por Recuperação (RAG) melhora a atualidade e a factualidade das respostas. No entanto, as avaliações existentes raramente testam quão bem esses sistemas lidam com ruídos do mundo real, conflitos entre contextos recuperados internos e externos, ou fatos que mudam rapidamente. Introduzimos a Avaliação de Robustez Consciente de Recuperação (RARE), uma estrutura unificada e um benchmark em larga escala que testa conjuntamente perturbações em consultas e documentos em corpora dinâmicos e sensíveis ao tempo. Uma das características centrais da RARE é um pipeline de síntese orientado por grafo de conhecimento (RARE-Get) que extrai automaticamente relações de salto único e múltiplos saltos do corpus personalizado e gera conjuntos de perguntas de múltiplos níveis sem intervenção manual. Aproveitando esse pipeline, construímos um conjunto de dados (RARE-Set) abrangendo 400 documentos especializados e sensíveis ao tempo de finanças, economia e política, e 48.322 perguntas cuja distribuição evolui à medida que as fontes subjacentes mudam. Para quantificar a resiliência, formalizamos métricas de robustez condicionadas à recuperação (RARE-Met) que capturam a capacidade de um modelo de permanecer correto ou se recuperar quando consultas, documentos ou resultados de recuperação do mundo real são sistematicamente alterados. Nossos resultados mostram que os sistemas RAG exibem uma vulnerabilidade surpreendente a perturbações, com a robustez de documentos consistentemente sendo o ponto mais fraco, independentemente do tamanho ou arquitetura do gerador. Os sistemas RAG consistentemente mostram menor robustez em consultas de múltiplos saltos em comparação com consultas de salto único em todos os domínios.

English

Retrieval-Augmented Generation (RAG) enhances recency and factuality in answers. However, existing evaluations rarely test how well these systems cope with real-world noise, conflicting between internal and external retrieved contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness Evaluation (RARE), a unified framework and large-scale benchmark that jointly stress-tests query and document perturbations over dynamic, time-sensitive corpora. One of the central features of RARE is a knowledge-graph-driven synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop relations from the customized corpus and generates multi-level question sets without manual intervention. Leveraging this pipeline, we construct a dataset (RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and policy documents and 48,322 questions whose distribution evolves as the underlying sources change. To quantify resilience, we formalize retrieval-conditioned robustness metrics (RARE-Met) that capture a model's ability to remain correct or recover when queries, documents, or real-world retrieval results are systematically altered. Our results show that RAG systems exhibit surprising vulnerability to perturbations, with document robustness consistently being the weakest point regardless of generator size or architecture. RAG systems consistently show lower robustness on multi-hop queries than single-hop queries across all domains.

RARE: Avaliação de Robustez com Consciência de Recuperação para Sistemas de Geração Aumentada por Recuperação

RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems

Resumo

Support