Indovina chi sono! Infiltrazione furtiva per l'Inferenza di Appartenenza in Generazione potenziata da Recupero
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation
February 1, 2025
Autori: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
cs.AI
Abstract
La Generazione potenziata da Recupero (RAG) consente ai Grandi Modelli Linguistici (LLM) di generare risposte basate su conoscenze esterne sfruttando basi di dati esterne senza modificare i parametri del modello. Sebbene l'assenza di taratura dei pesi impedisca la fuoriuscita tramite i parametri del modello, introduce il rischio che avversari dell'inferenza sfruttino i documenti recuperati nel contesto del modello. I metodi esistenti per l'inferenza di appartenenza e l'estrazione di dati spesso si basano sul jailbreaking o su query artificiali attentamente progettate, che possono essere facilmente individuate o contrastate con tecniche di riscrittura delle query comuni nei sistemi RAG. In questo lavoro, presentiamo l'Attacco di Interrogazione (IA), una tecnica di inferenza di appartenenza mirata ai documenti nel datastore RAG. Creando query di testo naturale che possono essere risposte solo con la presenza del documento target, il nostro approccio dimostra un'inferenza riuscita con soli 30 quesiti rimanendo furtivo; i rilevatori diretti identificano le richieste avversarie dai metodi esistenti fino a ~76 volte più frequentemente rispetto a quelle generate dal nostro attacco. Osserviamo un miglioramento del 2x in TPR@1%FPR rispetto agli attacchi di inferenza precedenti attraverso diverse configurazioni RAG, il tutto a un costo inferiore a $0.02 per inferenza di documento.
English
Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to
generate grounded responses by leveraging external knowledge databases without
altering model parameters. Although the absence of weight tuning prevents
leakage via model parameters, it introduces the risk of inference adversaries
exploiting retrieved documents in the model's context. Existing methods for
membership inference and data extraction often rely on jailbreaking or
carefully crafted unnatural queries, which can be easily detected or thwarted
with query rewriting techniques common in RAG systems. In this work, we present
Interrogation Attack (IA), a membership inference technique targeting documents
in the RAG datastore. By crafting natural-text queries that are answerable only
with the target document's presence, our approach demonstrates successful
inference with just 30 queries while remaining stealthy; straightforward
detectors identify adversarial prompts from existing methods up to ~76x more
frequently than those generated by our attack. We observe a 2x improvement in
TPR@1%FPR over prior inference attacks across diverse RAG configurations, all
while costing less than $0.02 per document inference.Summary
AI-Generated Summary