¡Adivina esto! Inferencia sigilosa de membresía para generación con recuperación aumentada
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation
February 1, 2025
Autores: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
cs.AI
Resumen
La Generación con Recuperación Aumentada (RAG) permite a los Modelos de Lenguaje Grandes (LLMs) generar respuestas fundamentadas aprovechando bases de conocimiento externas sin alterar los parámetros del modelo. Aunque la ausencia de ajuste de pesos evita fugas a través de los parámetros del modelo, introduce el riesgo de que adversarios de inferencia exploten documentos recuperados en el contexto del modelo. Los métodos existentes para inferencia de membresía y extracción de datos a menudo dependen de desbloqueos o consultas cuidadosamente elaboradas no naturales, que pueden ser fácilmente detectadas o frustradas con técnicas de reescritura de consultas comunes en sistemas RAG. En este trabajo, presentamos el Ataque de Interrogación (IA), una técnica de inferencia de membresía dirigida a documentos en el almacén de datos de RAG. Al elaborar consultas de texto natural que solo pueden ser respondidas con la presencia del documento objetivo, nuestro enfoque demuestra una inferencia exitosa con solo 30 consultas manteniéndose sigiloso; los detectores directos identifican las indicaciones adversariales de los métodos existentes hasta ~76 veces más frecuentemente que las generadas por nuestro ataque. Observamos una mejora de 2 veces en TPR@1%FPR respecto a ataques de inferencia anteriores en diversas configuraciones de RAG, todo ello costando menos de $0.02 por inferencia de documento.
English
Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to
generate grounded responses by leveraging external knowledge databases without
altering model parameters. Although the absence of weight tuning prevents
leakage via model parameters, it introduces the risk of inference adversaries
exploiting retrieved documents in the model's context. Existing methods for
membership inference and data extraction often rely on jailbreaking or
carefully crafted unnatural queries, which can be easily detected or thwarted
with query rewriting techniques common in RAG systems. In this work, we present
Interrogation Attack (IA), a membership inference technique targeting documents
in the RAG datastore. By crafting natural-text queries that are answerable only
with the target document's presence, our approach demonstrates successful
inference with just 30 queries while remaining stealthy; straightforward
detectors identify adversarial prompts from existing methods up to ~76x more
frequently than those generated by our attack. We observe a 2x improvement in
TPR@1%FPR over prior inference attacks across diverse RAG configurations, all
while costing less than $0.02 per document inference.Summary
AI-Generated Summary