Mecanismos de Privacidade Conscientes do Conceito para Defesa contra Ataques de Inversão de Embeddings
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
Autores: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
Resumo
Os embeddings de texto permitem inúmeras aplicações de PLN, mas enfrentam sérios riscos de privacidade devido a ataques de inversão de embeddings, que podem expor atributos sensíveis ou reconstruir texto bruto. As defesas existentes baseadas em privacidade diferencial assumem uma sensibilidade uniforme entre as dimensões dos embeddings, resultando em ruído excessivo e degradação da utilidade. Propomos o SPARSE, uma estrutura centrada no usuário para proteção de privacidade específica por conceito em embeddings de texto. O SPARSE combina (1) aprendizado de máscara diferenciável para identificar dimensões sensíveis à privacidade para conceitos definidos pelo usuário, e (2) o mecanismo de Mahalanobis que aplica ruído elíptico calibrado pela sensibilidade dimensional. Diferente da injeção tradicional de ruído esférico, o SPARSE perturba seletivamente as dimensões sensíveis à privacidade, preservando a semântica não sensível. Avaliado em seis conjuntos de dados com três modelos de embedding e cenários de ataque, o SPARSE reduz consistentemente o vazamento de privacidade enquanto alcança desempenho superior em tarefas downstream em comparação com os métodos state-of-the-art de DP.
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.