ChatPaper.aiChatPaper

¡Adivina esto! Inferencia sigilosa de membresía para generación con recuperación aumentada

Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

February 1, 2025
Autores: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
cs.AI

Resumen

La Generación con Recuperación Aumentada (RAG) permite a los Modelos de Lenguaje Grandes (LLMs) generar respuestas fundamentadas aprovechando bases de conocimiento externas sin alterar los parámetros del modelo. Aunque la ausencia de ajuste de pesos evita fugas a través de los parámetros del modelo, introduce el riesgo de que adversarios de inferencia exploten documentos recuperados en el contexto del modelo. Los métodos existentes para inferencia de membresía y extracción de datos a menudo dependen de desbloqueos o consultas cuidadosamente elaboradas no naturales, que pueden ser fácilmente detectadas o frustradas con técnicas de reescritura de consultas comunes en sistemas RAG. En este trabajo, presentamos el Ataque de Interrogación (IA), una técnica de inferencia de membresía dirigida a documentos en el almacén de datos de RAG. Al elaborar consultas de texto natural que solo pueden ser respondidas con la presencia del documento objetivo, nuestro enfoque demuestra una inferencia exitosa con solo 30 consultas manteniéndose sigiloso; los detectores directos identifican las indicaciones adversariales de los métodos existentes hasta ~76 veces más frecuentemente que las generadas por nuestro ataque. Observamos una mejora de 2 veces en TPR@1%FPR respecto a ataques de inferencia anteriores en diversas configuraciones de RAG, todo ello costando menos de $0.02 por inferencia de documento.
English
Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to generate grounded responses by leveraging external knowledge databases without altering model parameters. Although the absence of weight tuning prevents leakage via model parameters, it introduces the risk of inference adversaries exploiting retrieved documents in the model's context. Existing methods for membership inference and data extraction often rely on jailbreaking or carefully crafted unnatural queries, which can be easily detected or thwarted with query rewriting techniques common in RAG systems. In this work, we present Interrogation Attack (IA), a membership inference technique targeting documents in the RAG datastore. By crafting natural-text queries that are answerable only with the target document's presence, our approach demonstrates successful inference with just 30 queries while remaining stealthy; straightforward detectors identify adversarial prompts from existing methods up to ~76x more frequently than those generated by our attack. We observe a 2x improvement in TPR@1%FPR over prior inference attacks across diverse RAG configurations, all while costing less than $0.02 per document inference.

Summary

AI-Generated Summary

PDF52February 6, 2025