埋め込み逆推論攻撃に対する概念認識型プライバシー保護メカニズム
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
著者: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
要旨
テキスト埋め込みは多くのNLPアプリケーションを可能にするが、埋め込み逆変換攻撃による深刻なプライバシーリスクに直面しており、機微属性の暴露や生テキストの再構築を招きうる。既存の差分プライバシー防御手法は埋め込み次元間で均一な感度を仮定するため、過剰なノイズ付加と有用性の低下を招く。本論文では、テキスト埋め込みにおける概念特化型プライバシー保護のためのユーザ中心フレームワークSPARSEを提案する。SPARSEは、(1) ユーザ定義概念に対するプライバシー敏感次元を同定する微分可能マスク学習と、(2) 次元感度に基づいて調整された楕円状ノイズを適用するマハラノビスメカニズムを組み合わせる。従来の球状ノイズ注入とは異なり、SPARSEはプライバシー敏感次元を選択的に摂動させつつ、非敏感な意味情報を保持する。3種類の埋め込みモデルと攻撃シナリオを用いた6つのデータセットで評価した結果、SPARSEは既存の差分プライバシー手法と比較して、一貫してプライバシー漏洩を低減しつつ優れた下流タスク性能を達成する。
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.