임베딩 반전 공격 방어를 위한 개념 인식 프라이버시 메커니즘
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
저자: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
초록
텍스트 임베딩은 다양한 NLP 응용을 가능하게 하지만, 임베딩 역전 공격을 통해 민감한 속성이 노출되거나 원본 텍스트가 재구성될 수 있는 심각한 프라이버시 위험에 직면합니다. 기존 차등 프라이버시 방어 기법은 임베딩 차원 전반에 걸쳐 균일한 민감도를 가정함에 따라 과도한 노이즈가 추가되어 유틸리티가 저하되는 문제가 있습니다. 본 논문에서는 텍스트 임베딩에서 사용자 정의 개념에 대한 개념 특화형 프라이버시 보호를 위한 사용자 중심 프레임워크인 SPARSE를 제안합니다. SPARSE는 (1) 사용자 정의 개념에 대해 프라이버시 민감 차원을 식별하는 미분 가능 마스크 학습과 (2) 차원별 민감도에 따라 조정된 타원형 노이즈를 적용하는 Mahalanobis 메커니즘을 결합합니다. 기존의 구형 노이즈 주입 방식과 달리, SPARSE는 프라이버시 민감 차원을 선택적으로 교란하면서 비민감 의미를 보존합니다. 3가지 임베딩 모델과 공격 시나리오, 6개 데이터셋에 걸쳐 평가한 결과, SPARSE는 최신 DP 방법론 대비 우수한 하류 작업 성능을 달성하면서도 프라이버시 누출을 지속적으로 감소시키는 것으로 나타났습니다.
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.