SafeRAG: 大規模言語モデルの検索増強生成におけるセキュリティのベンチマーキング
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
January 28, 2025
著者: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang
cs.AI
要旨
検索増強生成(RAG)の索引付け-検索-生成パラダイムは、外部知識を大規模言語モデル(LLM)に統合することで、知識集約的なタスクを解決するのに非常に成功しています。ただし、外部および未検証の知識を組み込むことで、LLMの脆弱性が増加するため、攻撃者が知識を操作して攻撃タスクを実行できる可能性があります。本論文では、RAGのセキュリティを評価するために設計されたベンチマークであるSafeRAGを紹介します。まず、攻撃タスクを銀ノイズ、インターコンテキストの衝突、ソフト広告、およびホワイト・ディニアル・オブ・サービスに分類します。次に、各タスクに対して主に手動でRAGセキュリティ評価データセット(SafeRAGデータセット)を構築します。その後、SafeRAGデータセットを使用して、RAGが遭遇するさまざまな攻撃シナリオをシミュレートします。14の代表的なRAGコンポーネントで実施された実験は、RAGがすべての攻撃タスクに対して脆弱性を示し、最も明白な攻撃タスクでも既存のリトリーバ、フィルタ、または高度なLLMを簡単にバイパスし、RAGサービス品質の低下をもたらすことを示しています。コードは次で入手可能:https://github.com/IAAR-Shanghai/SafeRAG。
English
The indexing-retrieval-generation paradigm of retrieval-augmented generation
(RAG) has been highly successful in solving knowledge-intensive tasks by
integrating external knowledge into large language models (LLMs). However, the
incorporation of external and unverified knowledge increases the vulnerability
of LLMs because attackers can perform attack tasks by manipulating knowledge.
In this paper, we introduce a benchmark named SafeRAG designed to evaluate the
RAG security. First, we classify attack tasks into silver noise, inter-context
conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security
evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We
then utilize the SafeRAG dataset to simulate various attack scenarios that RAG
may encounter. Experiments conducted on 14 representative RAG components
demonstrate that RAG exhibits significant vulnerability to all attack tasks and
even the most apparent attack task can easily bypass existing retrievers,
filters, or advanced LLMs, resulting in the degradation of RAG service quality.
Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.Summary
AI-Generated Summary