Evaluación Comparativa de Ataques y Defensas de Extracción de Conocimiento en Generación Aumentada por Recuperación
Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation
February 10, 2026
Autores: Zhisheng Qi, Utkarsh Sahu, Li Ma, Haoyu Han, Ryan Rossi, Franck Dernoncourt, Mahantesh Halappanavar, Nesreen Ahmed, Yushun Dong, Yue Zhao, Yu Zhang, Yu Wang
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) se ha convertido en un pilar fundamental de las aplicaciones intensivas en conocimiento, incluyendo chatbots empresariales, asistentes sanitarios y la gestión de memoria de agentes. Sin embargo, estudios recientes demuestran que los ataques de extracción de conocimiento pueden recuperar contenido sensible de la base de conocimientos mediante consultas maliciosamente diseñadas, lo que plantea serias preocupaciones sobre el robo de propiedad intelectual y la filtración de privacidad. Si bien trabajos previos han explorado técnicas individuales de ataque y defensa, el panorama de investigación sigue fragmentado, abarcando incrustaciones de recuperación heterogéneas, modelos de generación diversos y evaluaciones basadas en métricas no estandarizadas y conjuntos de datos inconsistentes. Para abordar esta brecha, presentamos el primer benchmark sistemático para ataques de extracción de conocimiento en sistemas RAG. Nuestro benchmark cubre un amplio espectro de estrategias de ataque y defensa, modelos representativos de incrustaciones de recuperación, y generadores tanto de código abierto como cerrado, todos evaluados bajo un marco experimental unificado con protocolos estandarizados en múltiples conjuntos de datos. Al consolidar el panorama experimental y permitir una evaluación reproducible y comparable, este benchmark proporciona información práctica y una base sólida para desarrollar sistemas RAG que preserven la privacidad frente a las amenazas emergentes de extracción de conocimiento. Nuestro código está disponible aquí.
English
Retrieval-Augmented Generation (RAG) has become a cornerstone of knowledge-intensive applications, including enterprise chatbots, healthcare assistants, and agentic memory management. However, recent studies show that knowledge-extraction attacks can recover sensitive knowledge-base content through maliciously crafted queries, raising serious concerns about intellectual property theft and privacy leakage. While prior work has explored individual attack and defense techniques, the research landscape remains fragmented, spanning heterogeneous retrieval embeddings, diverse generation models, and evaluations based on non-standardized metrics and inconsistent datasets. To address this gap, we introduce the first systematic benchmark for knowledge-extraction attacks on RAG systems. Our benchmark covers a broad spectrum of attack and defense strategies, representative retrieval embedding models, and both open- and closed-source generators, all evaluated under a unified experimental framework with standardized protocols across multiple datasets. By consolidating the experimental landscape and enabling reproducible, comparable evaluation, this benchmark provides actionable insights and a practical foundation for developing privacy-preserving RAG systems in the face of emerging knowledge extraction threats. Our code is available here.