ChatPaper.aiChatPaper

RARE: Оценка устойчивости с учетом извлечения для систем генерации с усилением извлечением

RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems

June 1, 2025
Авторы: Yixiao Zeng, Tianyu Cao, Danqing Wang, Xinran Zhao, Zimeng Qiu, Morteza Ziyadi, Tongshuang Wu, Lei Li
cs.AI

Аннотация

Генерация с использованием извлечения информации (Retrieval-Augmented Generation, RAG) улучшает актуальность и достоверность ответов. Однако существующие методы оценки редко проверяют, насколько хорошо такие системы справляются с реальными шумами, конфликтами между внутренним и внешним извлеченным контекстом или быстро меняющимися фактами. Мы представляем Оценку устойчивости с учетом извлечения (Retrieval-Aware Robustness Evaluation, RARE) — унифицированную структуру и масштабный эталонный тест, который совместно проверяет устойчивость к изменениям в запросах и документах на динамических, чувствительных ко времени корпусах. Одной из ключевых особенностей RARE является синтезирующий конвейер, управляемый графом знаний (RARE-Get), который автоматически извлекает одношаговые и многошаговые связи из специализированного корпуса и генерирует многоуровневые наборы вопросов без ручного вмешательства. Используя этот конвейер, мы создаем набор данных (RARE-Set), охватывающий 400 экспертных документов, чувствительных ко времени, в области финансов, экономики и политики, а также 48 322 вопроса, распределение которых изменяется по мере изменения исходных источников. Для количественной оценки устойчивости мы формализуем метрики устойчивости, учитывающие извлечение (RARE-Met), которые фиксируют способность модели оставаться корректной или восстанавливаться при систематическом изменении запросов, документов или результатов извлечения из реального мира. Наши результаты показывают, что системы RAG демонстрируют удивительную уязвимость к изменениям, причем устойчивость к изменениям в документах неизменно остается самым слабым местом независимо от размера или архитектуры генератора. Системы RAG также демонстрируют более низкую устойчивость на многошаговых запросах по сравнению с одношаговыми во всех областях.
English
Retrieval-Augmented Generation (RAG) enhances recency and factuality in answers. However, existing evaluations rarely test how well these systems cope with real-world noise, conflicting between internal and external retrieved contexts, or fast-changing facts. We introduce Retrieval-Aware Robustness Evaluation (RARE), a unified framework and large-scale benchmark that jointly stress-tests query and document perturbations over dynamic, time-sensitive corpora. One of the central features of RARE is a knowledge-graph-driven synthesis pipeline (RARE-Get) that automatically extracts single and multi-hop relations from the customized corpus and generates multi-level question sets without manual intervention. Leveraging this pipeline, we construct a dataset (RARE-Set) spanning 400 expert-level time-sensitive finance, economics, and policy documents and 48,322 questions whose distribution evolves as the underlying sources change. To quantify resilience, we formalize retrieval-conditioned robustness metrics (RARE-Met) that capture a model's ability to remain correct or recover when queries, documents, or real-world retrieval results are systematically altered. Our results show that RAG systems exhibit surprising vulnerability to perturbations, with document robustness consistently being the weakest point regardless of generator size or architecture. RAG systems consistently show lower robustness on multi-hop queries than single-hop queries across all domains.
PDF42June 3, 2025