ChatPaper.aiChatPaper

「安全」なAI応答における誤った安心感:情報漏洩の危険性

A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

July 2, 2024
著者: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI

要旨

大規模言語モデル(LLM)は、有害または一般的に許容されない出力を引き出すための手法である「ジェイルブレイク」に対して脆弱です。安全性対策は、ジェイルブレイク攻撃に対する防御効果に基づいて開発・評価されており、安全性が堅牢性と同等であるという信念を示しています。しかし、我々は、出力フィルタやアラインメントのファインチューニングといった現在の防御メカニズムが、モデルの安全性を確保するために根本的に不十分であり、今後も不十分であり続けると主張します。これらの防御は、二重意図のクエリや、無害な出力を組み合わせて有害な目的を達成する能力から生じるリスクに対処できていません。この重要なギャップを埋めるため、我々は、モデルの出力から許容されない情報漏洩を悪用して悪意のある目的を達成する「推論的敵対者」と呼ばれる情報理論的脅威モデルを導入します。これらは、特定の許容されない出力を生成させることのみを目的とする、一般的に研究されているセキュリティ敵対者とは区別されます。我々は、質問の分解と回答の集約を通じて、推論的敵対者を自動化する可能性を示します。安全性を保証するために、我々は検閲メカニズムのための情報検閲基準を定義し、許容されない情報の漏洩を制限します。この制限を保証する防御メカニズムを提案し、安全性と有用性の間の本質的なトレードオフを明らかにします。我々の研究は、安全なLLMをリリースするための要件と、それに伴う有用性のコストについて、初めて理論的に根拠のある理解を提供します。
English
Large Language Models (LLMs) are vulnerable to jailbreaksx2013methods to elicit harmful or generally impermissible outputs. Safety measures are developed and assessed on their effectiveness at defending against jailbreak attacks, indicating a belief that safety is equivalent to robustness. We assert that current defense mechanisms, such as output filters and alignment fine-tuning, are, and will remain, fundamentally insufficient for ensuring model safety. These defenses fail to address risks arising from dual-intent queries and the ability to composite innocuous outputs to achieve harmful goals. To address this critical gap, we introduce an information-theoretic threat model called inferential adversaries who exploit impermissible information leakage from model outputs to achieve malicious goals. We distinguish these from commonly studied security adversaries who only seek to force victim models to generate specific impermissible outputs. We demonstrate the feasibility of automating inferential adversaries through question decomposition and response aggregation. To provide safety guarantees, we define an information censorship criterion for censorship mechanisms, bounding the leakage of impermissible information. We propose a defense mechanism which ensures this bound and reveal an intrinsic safety-utility trade-off. Our work provides the first theoretically grounded understanding of the requirements for releasing safe LLMs and the utility costs involved.

Summary

AI-Generated Summary

PDF91November 28, 2024