SafeRAG: Benchmarking der Sicherheit bei der abrufgestützten Generierung großer Sprachmodelle

papers.abstract

Das Indexierungs-Abruf-Generierungs-Paradigma des Abruf-erweiterten Generierungsmodells (RAG) war äußerst erfolgreich bei der Lösung wissensintensiver Aufgaben durch die Integration externen Wissens in große Sprachmodelle (LLMs). Die Einbindung externen und unüberprüften Wissens erhöht jedoch die Anfälligkeit von LLMs, da Angreifer Angriffsaufgaben durch Manipulation von Wissen ausführen können. In diesem Artikel stellen wir einen Benchmark namens SafeRAG vor, der entwickelt wurde, um die Sicherheit von RAG zu bewerten. Zunächst klassifizieren wir Angriffsaufgaben in Silberrauschen, Interkontextkonflikt, Soft-Ad und weiße Denial-of-Service. Anschließend erstellen wir einen RAG-Sicherheitsbewertungsdatensatz (d. h. SafeRAG-Datensatz) hauptsächlich manuell für jede Aufgabe. Wir nutzen dann den SafeRAG-Datensatz, um verschiedene Angriffsszenarien zu simulieren, denen RAG begegnen könnte. Experimente, die an 14 repräsentativen RAG-Komponenten durchgeführt wurden, zeigen, dass RAG eine erhebliche Anfälligkeit für alle Angriffsaufgaben aufweist und selbst die offensichtlichste Angriffsaufgabe problemlos bestehende Abrufsysteme, Filter oder fortschrittliche LLMs umgehen kann, was zu einer Beeinträchtigung der Servicequalität von RAG führt. Der Code ist verfügbar unter: https://github.com/IAAR-Shanghai/SafeRAG.

English

The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

SafeRAG: Benchmarking der Sicherheit bei der abrufgestützten Generierung großer Sprachmodelle

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

papers.abstract

Support