SafeRAG: Benchmarking Veiligheid bij het Ophalen-Versterkte Generatie van Grote Taalmodel
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
January 28, 2025
Auteurs: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI
Samenvatting
Het indexeren-opvragen-generatieparadigma van opvragingsversterkte generatie (RAG) is zeer succesvol gebleken in het oplossen van kennisintensieve taken door externe kennis te integreren in grote taalmodellen (LLM's). Echter, de integratie van externe en ongeverifieerde kennis verhoogt de kwetsbaarheid van LLM's omdat aanvallers aanvalstaken kunnen uitvoeren door kennis te manipuleren. In dit artikel introduceren we een benchmark genaamd SafeRAG, ontworpen om de RAG-beveiliging te evalueren. Allereerst classificeren we aanvalstaken als zilveren ruis, inter-context conflict, zachte advertentie en witte Denial-of-Service. Vervolgens construeren we een RAG-beveiligingsevaluatiedataset (d.w.z. SafeRAG-dataset) voornamelijk handmatig voor elke taak. We gebruiken vervolgens de SafeRAG-dataset om verschillende aanvalsscenario's te simuleren waarmee RAG kan worden geconfronteerd. Experimenten uitgevoerd op 14 representatieve RAG-componenten tonen aan dat RAG aanzienlijk kwetsbaar is voor alle aanvalstaken en zelfs de meest voor de hand liggende aanvalstaak kan gemakkelijk bestaande ophalers, filters of geavanceerde LLM's omzeilen, wat resulteert in de degradatie van de servicekwaliteit van RAG. De code is beschikbaar op: https://github.com/IAAR-Shanghai/SafeRAG.
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation
(RAG) has been highly successful in solving knowledge-intensive tasks by
integrating external knowledge into large language models (LLMs). However, the
incorporation of external and unverified knowledge increases the vulnerability
of LLMs because attackers can perform attack tasks by manipulating knowledge.
In this paper, we introduce a benchmark named SafeRAG designed to evaluate the
RAG security. First, we classify attack tasks into silver noise, inter-context
conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security
evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We
then utilize the SafeRAG dataset to simulate various attack scenarios that RAG
may encounter. Experiments conducted on 14 representative RAG components
demonstrate that RAG exhibits significant vulnerability to all attack tasks and
even the most apparent attack task can easily bypass existing retrievers,
filters, or advanced LLMs, resulting in the degradation of RAG service quality.
Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.Summary
AI-Generated Summary