ChatPaper.aiChatPaper

SafeRAG: Evaluación de la Seguridad en la Generación Mejorada con Recuperación de Modelos de Lenguaje Grandes

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

January 28, 2025
Autores: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI

Resumen

El paradigma de indexación-recuperación-generación de generación aumentada por recuperación (RAG) ha tenido un gran éxito en la resolución de tareas intensivas en conocimiento al integrar conocimiento externo en grandes modelos de lenguaje (LLMs). Sin embargo, la incorporación de conocimiento externo y no verificado aumenta la vulnerabilidad de los LLMs porque los atacantes pueden llevar a cabo tareas de ataque manipulando el conocimiento. En este documento, presentamos un benchmark llamado SafeRAG diseñado para evaluar la seguridad de RAG. En primer lugar, clasificamos las tareas de ataque en ruido plateado, conflicto inter-contextual, anuncio suave y Denegación de Servicio blanco. A continuación, construimos un conjunto de datos de evaluación de seguridad de RAG (es decir, conjunto de datos SafeRAG) principalmente de forma manual para cada tarea. Luego utilizamos el conjunto de datos SafeRAG para simular varios escenarios de ataque que RAG podría enfrentar. Experimentos realizados en 14 componentes representativos de RAG demuestran que RAG muestra una vulnerabilidad significativa a todas las tareas de ataque e incluso la tarea de ataque más evidente puede evadir fácilmente los recuperadores, filtros o LLMs avanzados existentes, lo que resulta en la degradación de la calidad del servicio de RAG. El código está disponible en: https://github.com/IAAR-Shanghai/SafeRAG.
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

Summary

AI-Generated Summary

PDF295February 4, 2025