SafeRAG: 大規模言語モデルの検索増強生成におけるセキュリティのベンチマーキング

要旨

検索増強生成（RAG）の索引付け-検索-生成パラダイムは、外部知識を大規模言語モデル（LLM）に統合することで、知識集約的なタスクを解決するのに非常に成功しています。ただし、外部および未検証の知識を組み込むことで、LLMの脆弱性が増加するため、攻撃者が知識を操作して攻撃タスクを実行できる可能性があります。本論文では、RAGのセキュリティを評価するために設計されたベンチマークであるSafeRAGを紹介します。まず、攻撃タスクを銀ノイズ、インターコンテキストの衝突、ソフト広告、およびホワイト・ディニアル・オブ・サービスに分類します。次に、各タスクに対して主に手動でRAGセキュリティ評価データセット（SafeRAGデータセット）を構築します。その後、SafeRAGデータセットを使用して、RAGが遭遇するさまざまな攻撃シナリオをシミュレートします。14の代表的なRAGコンポーネントで実施された実験は、RAGがすべての攻撃タスクに対して脆弱性を示し、最も明白な攻撃タスクでも既存のリトリーバ、フィルタ、または高度なLLMを簡単にバイパスし、RAGサービス品質の低下をもたらすことを示しています。コードは次で入手可能：https://github.com/IAAR-Shanghai/SafeRAG。

English

The indexing-retrieval-generation paradigm of retrieval-augmented generation (RAG) has been highly successful in solving knowledge-intensive tasks by integrating external knowledge into large language models (LLMs). However, the incorporation of external and unverified knowledge increases the vulnerability of LLMs because attackers can perform attack tasks by manipulating knowledge. In this paper, we introduce a benchmark named SafeRAG designed to evaluate the RAG security. First, we classify attack tasks into silver noise, inter-context conflict, soft ad, and white Denial-of-Service. Next, we construct RAG security evaluation dataset (i.e., SafeRAG dataset) primarily manually for each task. We then utilize the SafeRAG dataset to simulate various attack scenarios that RAG may encounter. Experiments conducted on 14 representative RAG components demonstrate that RAG exhibits significant vulnerability to all attack tasks and even the most apparent attack task can easily bypass existing retrievers, filters, or advanced LLMs, resulting in the degradation of RAG service quality. Code is available at: https://github.com/IAAR-Shanghai/SafeRAG.

SafeRAG: 大規模言語モデルの検索増強生成におけるセキュリティのベンチマーキング

SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

要旨

Support