Desvende este Enigma! Inferência de Associação Furtiva para Geração Aprimorada por Recuperação
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation
February 1, 2025
Autores: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
cs.AI
Resumo
A Geração com Recuperação Aprimorada (RAG) permite que Modelos de Linguagem Grandes (LLMs) gerem respostas fundamentadas, aproveitando bases de conhecimento externas sem alterar os parâmetros do modelo. Embora a ausência de ajuste de pesos evite vazamentos por meio dos parâmetros do modelo, ela introduz o risco de adversários de inferência explorarem documentos recuperados no contexto do modelo. Métodos existentes para inferência de associação e extração de dados frequentemente dependem de desbloqueio ou consultas cuidadosamente elaboradas e não naturais, que podem ser facilmente detectadas ou frustradas com técnicas de reescrita de consultas comuns em sistemas RAG. Neste trabalho, apresentamos o Ataque de Interrogação (IA), uma técnica de inferência de associação direcionada a documentos no banco de dados RAG. Ao elaborar consultas de texto natural que só podem ser respondidas com a presença do documento-alvo, nossa abordagem demonstra uma inferência bem-sucedida com apenas 30 consultas, mantendo-se furtiva; detectores diretos identificam sugestões adversárias de métodos existentes até ~76 vezes mais frequentemente do que aquelas geradas por nosso ataque. Observamos uma melhoria de 2 vezes em TPR@1%FPR em relação a ataques de inferência anteriores em diversas configurações de RAG, tudo isso custando menos de $0.02 por inferência de documento.
English
Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to
generate grounded responses by leveraging external knowledge databases without
altering model parameters. Although the absence of weight tuning prevents
leakage via model parameters, it introduces the risk of inference adversaries
exploiting retrieved documents in the model's context. Existing methods for
membership inference and data extraction often rely on jailbreaking or
carefully crafted unnatural queries, which can be easily detected or thwarted
with query rewriting techniques common in RAG systems. In this work, we present
Interrogation Attack (IA), a membership inference technique targeting documents
in the RAG datastore. By crafting natural-text queries that are answerable only
with the target document's presence, our approach demonstrates successful
inference with just 30 queries while remaining stealthy; straightforward
detectors identify adversarial prompts from existing methods up to ~76x more
frequently than those generated by our attack. We observe a 2x improvement in
TPR@1%FPR over prior inference attacks across diverse RAG configurations, all
while costing less than $0.02 per document inference.Summary
AI-Generated Summary