Analisi comparativa degli attacchi di estrazione della conoscenza e delle difese nei sistemi di generazione aumentata dal recupero
Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation
February 10, 2026
Autori: Zhisheng Qi, Utkarsh Sahu, Li Ma, Haoyu Han, Ryan Rossi, Franck Dernoncourt, Mahantesh Halappanavar, Nesreen Ahmed, Yushun Dong, Yue Zhao, Yu Zhang, Yu Wang
cs.AI
Abstract
La Generazione Aumentata dal Recupero (RAG) è diventata un pilastro delle applicazioni ad alta intensità di conoscenza, inclusi chatbot aziendali, assistenti sanitari e sistemi di gestione della memoria agentica. Tuttavia, studi recenti dimostrano che attacchi di estrazione della conoscenza possono recuperare contenuti sensibili della knowledge base tramite query costruite malevolmente, sollevando serie preoccupazioni riguardo alla violazione della proprietà intellettuale e alla fuoriuscita di dati privati. Sebbene lavori precedenti abbiano esplorato singole tecniche di attacco e difesa, il panorama della ricerca rimane frammentato, abbracciando embedding di recupero eterogenei, modelli di generazione diversificati e valutazioni basate su metriche non standardizzate e dataset incoerenti. Per colmare questa lacuna, introduciamo il primo benchmark sistematico per gli attacchi di estrazione della conoscenza sui sistemi RAG. Il nostro benchmark copre un'ampia gamma di strategie di attacco e difesa, modelli rappresentativi di embedding per il recupero, e generatori sia open-source che proprietari, tutti valutati in un quadro sperimentale unificato con protocolli standardizzati su più dataset. Consolidando il panorama sperimentale e consentendo una valutazione riproducibile e comparabile, questo benchmark fornisce spunti operativi e una base pratica per lo sviluppo di sistemi RAG che preservano la privacy di fronte alle minacce emergenti di estrazione della conoscenza. Il nostro codice è disponibile qui.
English
Retrieval-Augmented Generation (RAG) has become a cornerstone of knowledge-intensive applications, including enterprise chatbots, healthcare assistants, and agentic memory management. However, recent studies show that knowledge-extraction attacks can recover sensitive knowledge-base content through maliciously crafted queries, raising serious concerns about intellectual property theft and privacy leakage. While prior work has explored individual attack and defense techniques, the research landscape remains fragmented, spanning heterogeneous retrieval embeddings, diverse generation models, and evaluations based on non-standardized metrics and inconsistent datasets. To address this gap, we introduce the first systematic benchmark for knowledge-extraction attacks on RAG systems. Our benchmark covers a broad spectrum of attack and defense strategies, representative retrieval embedding models, and both open- and closed-source generators, all evaluated under a unified experimental framework with standardized protocols across multiple datasets. By consolidating the experimental landscape and enabling reproducible, comparable evaluation, this benchmark provides actionable insights and a practical foundation for developing privacy-preserving RAG systems in the face of emerging knowledge extraction threats. Our code is available here.