SafeRAG: Avaliação de Segurança na Geração Aprimorada por Recuperação de Grandes Modelos de Linguagem

Resumo

O paradigma de indexação-recuperação-geração da geração aumentada por recuperação (RAG) tem sido altamente bem-sucedido na resolução de tarefas intensivas em conhecimento ao integrar conhecimento externo em grandes modelos de linguagem (LLMs). No entanto, a incorporação de conhecimento externo e não verificado aumenta a vulnerabilidade dos LLMs, pois os atacantes podem realizar tarefas de ataque manipulando o conhecimento. Neste artigo, introduzimos um benchmark chamado SafeRAG, projetado para avaliar a segurança do RAG. Primeiramente, classificamos as tarefas de ataque em ruído prateado, conflito intercontextual, anúncio suave e Negação-de-Serviço branca. Em seguida, construímos um conjunto de dados de avaliação de segurança do RAG (ou seja, conjunto de dados SafeRAG) principalmente manualmente para cada tarefa. Em seguida, utilizamos o conjunto de dados SafeRAG para simular vários cenários de ataque que o RAG pode enfrentar. Experimentos realizados em 14 componentes representativos do RAG demonstram que o RAG exibe uma vulnerabilidade significativa a todas as tarefas de ataque e até mesmo a tarefa de ataque mais evidente pode facilmente contornar os recuperadores, filtros ou LLMs avançados existentes, resultando na degradação da qualidade do serviço do RAG. O código está disponível em: https://github.com/IAAR-Shanghai/SafeRAG.

English

The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

SafeRAG: Avaliação de Segurança na Geração Aprimorada por Recuperação de Grandes Modelos de Linguagem

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

Resumo

Support