SafeRAG: Valutazione delle Sicurezza nella Generazione Potenziata da Recupero dei Grandi Modelli Linguistici

Abstract

Il paradigma di indicizzazione-recupero-generazione della generazione potenziata dal recupero (RAG) ha avuto un grande successo nel risolvere compiti ad alta intensità di conoscenza integrando la conoscenza esterna nei grandi modelli linguistici (LLM). Tuttavia, l'incorporazione di conoscenze esterne e non verificate aumenta la vulnerabilità dei LLM poiché gli attaccanti possono eseguire attacchi manipolando le conoscenze. In questo articolo, presentiamo un benchmark chiamato SafeRAG progettato per valutare la sicurezza di RAG. In primo luogo, classifichiamo i compiti di attacco in rumore argento, conflitto tra contesti, annuncio soft e Denial-of-Service bianco. Successivamente, costruiamo un dataset di valutazione della sicurezza di RAG (ossia, dataset SafeRAG) principalmente manualmente per ciascun compito. Utilizziamo poi il dataset SafeRAG per simulare vari scenari di attacco che RAG potrebbe affrontare. Gli esperimenti condotti su 14 componenti rappresentative di RAG dimostrano che RAG mostra una significativa vulnerabilità a tutti i compiti di attacco e persino il compito di attacco più evidente può facilmente eludere i recuperatori, i filtri o i LLM avanzati esistenti, con conseguente degrado della qualità del servizio di RAG. Il codice è disponibile su: https://github.com/IAAR-Shanghai/SafeRAG.

English

The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

SafeRAG: Valutazione delle Sicurezza nella Generazione Potenziata da Recupero dei Grandi Modelli Linguistici

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

Abstract

Support