ChatPaper.aiChatPaper

Énigme ! Inférence de l'appartenance furtive pour la génération augmentée par récupération

Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

February 1, 2025
Auteurs: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
cs.AI

Résumé

La Génération Augmentée par Récupération (RAG) permet aux Grands Modèles de Langage (LLMs) de produire des réponses ancrées en exploitant des bases de connaissances externes sans modifier les paramètres du modèle. Bien que l'absence d'ajustement des poids empêche les fuites via les paramètres du modèle, cela introduit le risque que des adversaires d'inférence exploitent les documents récupérés dans le contexte du modèle. Les méthodes existantes d'inférence d'appartenance et d'extraction de données reposent souvent sur le jailbreaking ou des requêtes artificielles soigneusement élaborées, qui peuvent être facilement détectées ou contrecarrées avec des techniques de réécriture de requêtes courantes dans les systèmes RAG. Dans ce travail, nous présentons l'Attaque par Interrogation (IA), une technique d'inférence d'appartenance ciblant les documents dans le référentiel de données RAG. En élaborant des requêtes de texte naturel qui ne peuvent être répondues qu'en présence du document cible, notre approche démontre une inférence réussie avec seulement 30 requêtes tout en restant furtive ; les détecteurs directs identifient les sollicitations adverses des méthodes existantes jusqu'à ~76 fois plus fréquemment que celles générées par notre attaque. Nous observons une amélioration de 2 fois du TPR@1%FPR par rapport aux attaques d'inférence antérieures à travers diverses configurations RAG, le tout pour un coût inférieur à 0,02 $ par inférence de document.
English
Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to generate grounded responses by leveraging external knowledge databases without altering model parameters. Although the absence of weight tuning prevents leakage via model parameters, it introduces the risk of inference adversaries exploiting retrieved documents in the model's context. Existing methods for membership inference and data extraction often rely on jailbreaking or carefully crafted unnatural queries, which can be easily detected or thwarted with query rewriting techniques common in RAG systems. In this work, we present Interrogation Attack (IA), a membership inference technique targeting documents in the RAG datastore. By crafting natural-text queries that are answerable only with the target document's presence, our approach demonstrates successful inference with just 30 queries while remaining stealthy; straightforward detectors identify adversarial prompts from existing methods up to ~76x more frequently than those generated by our attack. We observe a 2x improvement in TPR@1%FPR over prior inference attacks across diverse RAG configurations, all while costing less than $0.02 per document inference.

Summary

AI-Generated Summary

PDF52February 6, 2025