SafeRAG: Benchmarking Veiligheid bij het Ophalen-Versterkte Generatie van Grote Taalmodel

Samenvatting

Het indexeren-opvragen-generatieparadigma van opvragingsversterkte generatie (RAG) is zeer succesvol gebleken in het oplossen van kennisintensieve taken door externe kennis te integreren in grote taalmodellen (LLM's). Echter, de integratie van externe en ongeverifieerde kennis verhoogt de kwetsbaarheid van LLM's omdat aanvallers aanvalstaken kunnen uitvoeren door kennis te manipuleren. In dit artikel introduceren we een benchmark genaamd SafeRAG, ontworpen om de RAG-beveiliging te evalueren. Allereerst classificeren we aanvalstaken als zilveren ruis, inter-context conflict, zachte advertentie en witte Denial-of-Service. Vervolgens construeren we een RAG-beveiligingsevaluatiedataset (d.w.z. SafeRAG-dataset) voornamelijk handmatig voor elke taak. We gebruiken vervolgens de SafeRAG-dataset om verschillende aanvalsscenario's te simuleren waarmee RAG kan worden geconfronteerd. Experimenten uitgevoerd op 14 representatieve RAG-componenten tonen aan dat RAG aanzienlijk kwetsbaar is voor alle aanvalstaken en zelfs de meest voor de hand liggende aanvalstaak kan gemakkelijk bestaande ophalers, filters of geavanceerde LLM's omzeilen, wat resulteert in de degradatie van de servicekwaliteit van RAG. De code is beschikbaar op: https://github.com/IAAR-Shanghai/SafeRAG.

English

The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

SafeRAG: Benchmarking Veiligheid bij het Ophalen-Versterkte Generatie van Grote Taalmodel

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

Samenvatting

Support