Mecanismos de Privacidad Conscientes del Concepto para Defender Ataques de Inversión de Incrustaciones
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
Autores: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
Resumen
Los embeddings de texto permiten numerosas aplicaciones de PLN pero enfrentan graves riesgos de privacidad por ataques de inversión de embeddings, que pueden exponer atributos sensibles o reconstruir texto original. Las defensas existentes de privacidad diferencial asumen una sensibilidad uniforme entre dimensiones de embedding, generando ruido excesivo y degradando la utilidad. Proponemos SPARSE, un marco centrado en el usuario para protección de privacidad específica por concepto en embeddings de texto. SPARSE combina (1) aprendizaje de máscara diferenciable para identificar dimensiones sensibles a la privacidad para conceptos definidos por el usuario, y (2) el mecanismo de Mahalanobis que aplica ruido elíptico calibrado por sensibilidad dimensional. A diferencia de la inyección esférica tradicional de ruido, SPARSE perturba selectivamente dimensiones sensibles preservando semántica no sensible. Evaluado en seis conjuntos de datos con tres modelos de embedding y escenarios de ataque, SPARSE reduce consistentemente la filtración de privacidad mientras logra un rendimiento superior en tareas posteriores comparado con métodos state-of-the-art de privacidad diferencial.
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.