Mécanismes de confidentialité sensibles au concept pour la défense contre les attaques par inversion d'embedding
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
papers.authors: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
papers.abstract
Les plongements textuels permettent de nombreuses applications en TAL mais sont confrontés à des risques importants pour la vie privée dus aux attaques par inversion d'embeddings, qui peuvent révéler des attributs sensibles ou reconstruire le texte brut. Les défenses existantes basées sur la confidentialité différentielle supposent une sensibilité uniforme entre les dimensions des plongements, conduisant à un bruit excessif et une utilité dégradée. Nous proposons SPARSE, un cadre centré sur l'utilisateur pour la protection de la vie privée conceptuelle dans les plongements textuels. SPARSE combine (1) l'apprentissage de masques différentiables pour identifier les dimensions sensibles liées à des concepts définis par l'utilisateur, et (2) le mécanisme de Mahalanobis qui applique un bruit elliptique calibré selon la sensibilité dimensionnelle. Contrairement à l'injection de bruit sphérique traditionnelle, SPARSE perturbe sélectivement les dimensions sensibles tout en préservant la sémantique non sensible. Évalué sur six jeux de données avec trois modèles d'embedding et scénarios d'attaque, SPARSE réduit constamment les fuites d'informations privées tout en obtenant des performances en aval supérieures aux méthodes DP état de l'art.
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.