Énigme ! Inférence de l'appartenance furtive pour la génération augmentée par récupération
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation
February 1, 2025
Auteurs: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) permet aux Grands Modèles de Langage (LLMs) de produire des réponses ancrées en exploitant des bases de connaissances externes sans modifier les paramètres du modèle. Bien que l'absence d'ajustement des poids empêche les fuites via les paramètres du modèle, cela introduit le risque que des adversaires d'inférence exploitent les documents récupérés dans le contexte du modèle. Les méthodes existantes d'inférence d'appartenance et d'extraction de données reposent souvent sur le jailbreaking ou des requêtes artificielles soigneusement élaborées, qui peuvent être facilement détectées ou contrecarrées avec des techniques de réécriture de requêtes courantes dans les systèmes RAG. Dans ce travail, nous présentons l'Attaque par Interrogation (IA), une technique d'inférence d'appartenance ciblant les documents dans le référentiel de données RAG. En élaborant des requêtes de texte naturel qui ne peuvent être répondues qu'en présence du document cible, notre approche démontre une inférence réussie avec seulement 30 requêtes tout en restant furtive ; les détecteurs directs identifient les sollicitations adverses des méthodes existantes jusqu'à ~76 fois plus fréquemment que celles générées par notre attaque. Nous observons une amélioration de 2 fois du TPR@1%FPR par rapport aux attaques d'inférence antérieures à travers diverses configurations RAG, le tout pour un coût inférieur à 0,02 $ par inférence de document.
English
Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to
generate grounded responses by leveraging external knowledge databases without
altering model parameters. Although the absence of weight tuning prevents
leakage via model parameters, it introduces the risk of inference adversaries
exploiting retrieved documents in the model's context. Existing methods for
membership inference and data extraction often rely on jailbreaking or
carefully crafted unnatural queries, which can be easily detected or thwarted
with query rewriting techniques common in RAG systems. In this work, we present
Interrogation Attack (IA), a membership inference technique targeting documents
in the RAG datastore. By crafting natural-text queries that are answerable only
with the target document's presence, our approach demonstrates successful
inference with just 30 queries while remaining stealthy; straightforward
detectors identify adversarial prompts from existing methods up to ~76x more
frequently than those generated by our attack. We observe a 2x improvement in
TPR@1%FPR over prior inference attacks across diverse RAG configurations, all
while costing less than $0.02 per document inference.Summary
AI-Generated Summary