SafeRAG: Avaliação de Segurança na Geração Aprimorada por Recuperação de Grandes Modelos de Linguagem
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
January 28, 2025
Autores: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI
Resumo
O paradigma de indexação-recuperação-geração da geração aumentada por recuperação (RAG) tem sido altamente bem-sucedido na resolução de tarefas intensivas em conhecimento ao integrar conhecimento externo em grandes modelos de linguagem (LLMs). No entanto, a incorporação de conhecimento externo e não verificado aumenta a vulnerabilidade dos LLMs, pois os atacantes podem realizar tarefas de ataque manipulando o conhecimento. Neste artigo, introduzimos um benchmark chamado SafeRAG, projetado para avaliar a segurança do RAG. Primeiramente, classificamos as tarefas de ataque em ruído prateado, conflito intercontextual, anúncio suave e Negação-de-Serviço branca. Em seguida, construímos um conjunto de dados de avaliação de segurança do RAG (ou seja, conjunto de dados SafeRAG) principalmente manualmente para cada tarefa. Em seguida, utilizamos o conjunto de dados SafeRAG para simular vários cenários de ataque que o RAG pode enfrentar. Experimentos realizados em 14 componentes representativos do RAG demonstram que o RAG exibe uma vulnerabilidade significativa a todas as tarefas de ataque e até mesmo a tarefa de ataque mais evidente pode facilmente contornar os recuperadores, filtros ou LLMs avançados existentes, resultando na degradação da qualidade do serviço do RAG. O código está disponível em: https://github.com/IAAR-Shanghai/SafeRAG.
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation
(RAG) has been highly successful in solving knowledge-intensive tasks by
integrating external knowledge into large language models (LLMs). However, the
incorporation of external and unverified knowledge increases the vulnerability
of LLMs because attackers can perform attack tasks by manipulating knowledge.
In this paper, we introduce a benchmark named SafeRAG designed to evaluate the
RAG security. First, we classify attack tasks into silver noise, inter-context
conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security
evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We
then utilize the SafeRAG dataset to simulate various attack scenarios that RAG
may encounter. Experiments conducted on 14 representative RAG components
demonstrate that RAG exhibits significant vulnerability to all attack tasks and
even the most apparent attack task can easily bypass existing retrievers,
filters, or advanced LLMs, resulting in the degradation of RAG service quality.
Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.Summary
AI-Generated Summary