Концептуально-ориентированные механизмы конфиденциальности для защиты от атак инверсии эмбеддингов
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks
February 6, 2026
Авторы: Yu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin
cs.AI
Аннотация
Текстовые эмбеддинги обеспечивают множество приложений NLP, но сталкиваются с серьезными рисками конфиденциальности из-за атак инверсии эмбеддингов, которые могут раскрыть чувствительные атрибуты или восстановить исходный текст. Существующие методы защиты с дифференциальной приватностью предполагают равномерную чувствительность по измерениям эмбеддингов, что приводит к избыточному шуму и снижению полезности. Мы предлагаем SPARSE — пользовательско-ориентированную фреймворк для концептуально-специфической защиты приватности в текстовых эмбеддингах. SPARSE объединяет (1) дифференцируемое обучение маски для идентификации приватно-чувствительных измерений для задаваемых пользователем концепций и (2) механизм Махаланобиса, применяющий эллиптический шум, калиброванный по чувствительности измерений. В отличие от традиционного введения сферического шума, SPARSE выборочно искажает приватно-чувствительные измерения, сохраняя при этом нечувствительную семантику. Оценка на шести наборах данных с тремя моделями эмбеддингов и сценариями атак показывает, что SPARSE последовательно снижает утечку приватности, одновременно достигая превосходной производительности на последующих задачах по сравнению с современными методами дифференциальной приватности.
English
Text embeddings enable numerous NLP applications but face severe privacy risks from embedding inversion attacks, which can expose sensitive attributes or reconstruct raw text. Existing differential privacy defenses assume uniform sensitivity across embedding dimensions, leading to excessive noise and degraded utility. We propose SPARSE, a user-centric framework for concept-specific privacy protection in text embeddings. SPARSE combines (1) differentiable mask learning to identify privacy-sensitive dimensions for user-defined concepts, and (2) the Mahalanobis mechanism that applies elliptical noise calibrated by dimension sensitivity. Unlike traditional spherical noise injection, SPARSE selectively perturbs privacy-sensitive dimensions while preserving non-sensitive semantics. Evaluated across six datasets with three embedding models and attack scenarios, SPARSE consistently reduces privacy leakage while achieving superior downstream performance compared to state-of-the-art DP methods.