Desvende este Enigma! Inferência de Associação Furtiva para Geração Aprimorada por Recuperação

Resumo

A Geração com Recuperação Aprimorada (RAG) permite que Modelos de Linguagem Grandes (LLMs) gerem respostas fundamentadas, aproveitando bases de conhecimento externas sem alterar os parâmetros do modelo. Embora a ausência de ajuste de pesos evite vazamentos por meio dos parâmetros do modelo, ela introduz o risco de adversários de inferência explorarem documentos recuperados no contexto do modelo. Métodos existentes para inferência de associação e extração de dados frequentemente dependem de desbloqueio ou consultas cuidadosamente elaboradas e não naturais, que podem ser facilmente detectadas ou frustradas com técnicas de reescrita de consultas comuns em sistemas RAG. Neste trabalho, apresentamos o Ataque de Interrogação (IA), uma técnica de inferência de associação direcionada a documentos no banco de dados RAG. Ao elaborar consultas de texto natural que só podem ser respondidas com a presença do documento-alvo, nossa abordagem demonstra uma inferência bem-sucedida com apenas 30 consultas, mantendo-se furtiva; detectores diretos identificam sugestões adversárias de métodos existentes até ~76 vezes mais frequentemente do que aquelas geradas por nosso ataque. Observamos uma melhoria de 2 vezes em TPR@1%FPR em relação a ataques de inferência anteriores em diversas configurações de RAG, tudo isso custando menos de $0.02 por inferência de documento.

English

Retrieval-Augmented Generation (RAG) enables Large Language Models (LLMs) to generate grounded responses by leveraging external knowledge databases without altering model parameters. Although the absence of weight tuning prevents leakage via model parameters, it introduces the risk of inference adversaries exploiting retrieved documents in the model's context. Existing methods for membership inference and data extraction often rely on jailbreaking or carefully crafted unnatural queries, which can be easily detected or thwarted with query rewriting techniques common in RAG systems. In this work, we present Interrogation Attack (IA), a membership inference technique targeting documents in the RAG datastore. By crafting natural-text queries that are answerable only with the target document's presence, our approach demonstrates successful inference with just 30 queries while remaining stealthy; straightforward detectors identify adversarial prompts from existing methods up to ~76x more frequently than those generated by our attack. We observe a 2x improvement in TPR@1%FPR over prior inference attacks across diverse RAG configurations, all while costing less than $0.02 per document inference.

Desvende este Enigma! Inferência de Associação Furtiva para Geração Aprimorada por Recuperação

Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Resumo

Support