SafeRAG: Сравнение безопасности в улучшенной генерации с восстановлением больших языковых моделей
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
January 28, 2025
Авторы: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI
Аннотация
Парадигма индексации-извлечения-генерации в модели с извлечением информации (RAG) оказалась чрезвычайно успешной в решении задач, требующих знаний, путем интеграции внешних знаний в большие языковые модели (LLM). Однако внедрение внешних и непроверенных знаний увеличивает уязвимость LLM, поскольку злоумышленники могут осуществлять атаки, манипулируя знаниями. В данной статье мы представляем бенчмарк под названием SafeRAG, разработанный для оценки безопасности RAG. Во-первых, мы классифицируем атаки на атаки серебряного шума, межконтекстные конфликты, мягкую рекламу и белый отказ в обслуживании. Затем мы создаем набор данных для оценки безопасности RAG (т.е. набор данных SafeRAG) в основном вручную для каждой задачи. Затем мы используем набор данных SafeRAG для моделирования различных сценариев атак, с которыми может столкнуться RAG. Эксперименты, проведенные на 14 представительных компонентах RAG, показывают, что RAG проявляет значительную уязвимость ко всем видам атак, и даже самая очевидная атака может легко обойти существующие извлекатели, фильтры или продвинутые LLM, что приводит к ухудшению качества обслуживания RAG. Код доступен по ссылке: https://github.com/IAAR-Shanghai/SafeRAG.
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation
(RAG) has been highly successful in solving knowledge-intensive tasks by
integrating external knowledge into large language models (LLMs). However, the
incorporation of external and unverified knowledge increases the vulnerability
of LLMs because attackers can perform attack tasks by manipulating knowledge.
In this paper, we introduce a benchmark named SafeRAG designed to evaluate the
RAG security. First, we classify attack tasks into silver noise, inter-context
conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security
evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We
then utilize the SafeRAG dataset to simulate various attack scenarios that RAG
may encounter. Experiments conducted on 14 representative RAG components
demonstrate that RAG exhibits significant vulnerability to all attack tasks and
even the most apparent attack task can easily bypass existing retrievers,
filters, or advanced LLMs, resulting in the degradation of RAG service quality.
Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.Summary
AI-Generated Summary