SafeRAG : Évaluation de la sécurité dans la génération augmentée par récupération des grands modèles de langage

papers.abstract

Le paradigme d'indexation-récupération-génération de la génération augmentée par récupération (RAG) a connu un grand succès dans la résolution de tâches intensives en connaissances en intégrant des connaissances externes dans de grands modèles de langage (LLM). Cependant, l'incorporation de connaissances externes et non vérifiées accroît la vulnérabilité des LLM car les attaquants peuvent effectuer des tâches d'attaque en manipulant les connaissances. Dans cet article, nous introduisons un banc d'essai nommé SafeRAG conçu pour évaluer la sécurité de RAG. Tout d'abord, nous classifions les tâches d'attaque en bruit argenté, conflit inter-contexte, publicité douce et déni de service blanc. Ensuite, nous construisons un ensemble de données d'évaluation de la sécurité de RAG (c'est-à-dire l'ensemble de données SafeRAG) principalement manuellement pour chaque tâche. Nous utilisons ensuite l'ensemble de données SafeRAG pour simuler divers scénarios d'attaque auxquels RAG pourrait être confronté. Les expériences menées sur 14 composants représentatifs de RAG démontrent que RAG présente une vulnérabilité significative à toutes les tâches d'attaque et même la tâche d'attaque la plus évidente peut contourner facilement les récupérateurs, les filtres ou les LLM avancés existants, entraînant une dégradation de la qualité du service RAG. Le code est disponible sur : https://github.com/IAAR-Shanghai/SafeRAG.

English

The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

SafeRAG : Évaluation de la sécurité dans la génération augmentée par récupération des grands modèles de langage

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

papers.abstract

Support