Meccanismi di Privacy Consapevoli del Concetto per la Difesa da Attacchi di Inversione degli Embedding
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
Autori: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
Abstract
Gli embedding testuali abilitano numerose applicazioni di NLP ma affrontano seri rischi per la privacy a causa di attacchi di inversione degli embedding, che possono esporre attributi sensibili o ricostruire il testo grezzo. Le difese esistenti con privacy differenziale presuppongono una sensibilità uniforme tra le dimensioni degli embedding, portando a rumore eccessivo e utilità degradata. Proponiamo SPARSE, un framework centrato sull'utente per la protezione della privacy specifica per concetti negli embedding testuali. SPARSE combina (1) l'apprendimento di maschere differenziabili per identificare le dimensioni sensibili per concetti definiti dall'utente, e (2) il meccanismo di Mahalanobis che applica rumore ellittico calibrato in base alla sensibilità dimensionale. A differenza dell'iniezione tradizionale di rumore sferico, SPARSE perturba selettivamente le dimensioni sensibili preservando la semantica non sensibile. Valutato su sei dataset con tre modelli di embedding e scenari di attacco, SPARSE riduce costantemente la perdita di privacy raggiungendo prestazioni downstream superiori rispetto ai metodi DP allo stato dell'arte.
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.