SafeRAG : Évaluation de la sécurité dans la génération augmentée par récupération des grands modèles de langage
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
January 28, 2025
Auteurs: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI
Résumé
Le paradigme d'indexation-récupération-génération de la génération augmentée par récupération (RAG) a connu un grand succès dans la résolution de tâches intensives en connaissances en intégrant des connaissances externes dans de grands modèles de langage (LLM). Cependant, l'incorporation de connaissances externes et non vérifiées accroît la vulnérabilité des LLM car les attaquants peuvent effectuer des tâches d'attaque en manipulant les connaissances. Dans cet article, nous introduisons un banc d'essai nommé SafeRAG conçu pour évaluer la sécurité de RAG. Tout d'abord, nous classifions les tâches d'attaque en bruit argenté, conflit inter-contexte, publicité douce et déni de service blanc. Ensuite, nous construisons un ensemble de données d'évaluation de la sécurité de RAG (c'est-à-dire l'ensemble de données SafeRAG) principalement manuellement pour chaque tâche. Nous utilisons ensuite l'ensemble de données SafeRAG pour simuler divers scénarios d'attaque auxquels RAG pourrait être confronté. Les expériences menées sur 14 composants représentatifs de RAG démontrent que RAG présente une vulnérabilité significative à toutes les tâches d'attaque et même la tâche d'attaque la plus évidente peut contourner facilement les récupérateurs, les filtres ou les LLM avancés existants, entraînant une dégradation de la qualité du service RAG. Le code est disponible sur : https://github.com/IAAR-Shanghai/SafeRAG.
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation
(RAG) has been highly successful in solving knowledge-intensive tasks by
integrating external knowledge into large language models (LLMs). However, the
incorporation of external and unverified knowledge increases the vulnerability
of LLMs because attackers can perform attack tasks by manipulating knowledge.
In this paper, we introduce a benchmark named SafeRAG designed to evaluate the
RAG security. First, we classify attack tasks into silver noise, inter-context
conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security
evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We
then utilize the SafeRAG dataset to simulate various attack scenarios that RAG
may encounter. Experiments conducted on 14 representative RAG components
demonstrate that RAG exhibits significant vulnerability to all attack tasks and
even the most apparent attack task can easily bypass existing retrievers,
filters, or advanced LLMs, resulting in the degradation of RAG service quality.
Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.Summary
AI-Generated Summary