SafeRAG: Benchmarking der Sicherheit bei der abrufgestützten Generierung großer Sprachmodelle
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
January 28, 2025
Autoren: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI
Zusammenfassung
Das Indexierungs-Abruf-Generierungs-Paradigma des Abruf-erweiterten Generierungsmodells (RAG) war äußerst erfolgreich bei der Lösung wissensintensiver Aufgaben durch die Integration externen Wissens in große Sprachmodelle (LLMs). Die Einbindung externen und unüberprüften Wissens erhöht jedoch die Anfälligkeit von LLMs, da Angreifer Angriffsaufgaben durch Manipulation von Wissen ausführen können. In diesem Artikel stellen wir einen Benchmark namens SafeRAG vor, der entwickelt wurde, um die Sicherheit von RAG zu bewerten. Zunächst klassifizieren wir Angriffsaufgaben in Silberrauschen, Interkontextkonflikt, Soft-Ad und weiße Denial-of-Service. Anschließend erstellen wir einen RAG-Sicherheitsbewertungsdatensatz (d. h. SafeRAG-Datensatz) hauptsächlich manuell für jede Aufgabe. Wir nutzen dann den SafeRAG-Datensatz, um verschiedene Angriffsszenarien zu simulieren, denen RAG begegnen könnte. Experimente, die an 14 repräsentativen RAG-Komponenten durchgeführt wurden, zeigen, dass RAG eine erhebliche Anfälligkeit für alle Angriffsaufgaben aufweist und selbst die offensichtlichste Angriffsaufgabe problemlos bestehende Abrufsysteme, Filter oder fortschrittliche LLMs umgehen kann, was zu einer Beeinträchtigung der Servicequalität von RAG führt. Der Code ist verfügbar unter: https://github.com/IAAR-Shanghai/SafeRAG.
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation
(RAG) has been highly successful in solving knowledge-intensive tasks by
integrating external knowledge into large language models (LLMs). However, the
incorporation of external and unverified knowledge increases the vulnerability
of LLMs because attackers can perform attack tasks by manipulating knowledge.
In this paper, we introduce a benchmark named SafeRAG designed to evaluate the
RAG security. First, we classify attack tasks into silver noise, inter-context
conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security
evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We
then utilize the SafeRAG dataset to simulate various attack scenarios that RAG
may encounter. Experiments conducted on 14 representative RAG components
demonstrate that RAG exhibits significant vulnerability to all attack tasks and
even the most apparent attack task can easily bypass existing retrievers,
filters, or advanced LLMs, resulting in the degradation of RAG service quality.
Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.Summary
AI-Generated Summary