Anonymisation adaptative du texte : Apprentissage des compromis vie privée-utilité par optimisation de prompts

Résumé

L'anonymisation de documents textuels est un problème hautement sensible au contexte : l'équilibre approprié entre la protection de la vie privée et la préservation de l'utilité varie selon le domaine des données, les objectifs de confidentialité et l'application en aval. Cependant, les méthodes d'anonymisation existantes reposent sur des stratégies statiques, conçues manuellement, qui manquent de flexibilité pour s'adapter à des exigences diverses et échouent souvent à généraliser entre les domaines. Nous introduisons l'anonymisation de texte adaptative, une nouvelle formulation de tâche dans laquelle les stratégies d'anonymisation sont automatiquement adaptées à des exigences spécifiques de confidentialité-utilité. Nous proposons un cadre d'optimisation d'invites spécifique à la tâche qui construit automatiquement des instructions d'anonymisation pour les modèles de langage, permettant une adaptation à différents objectifs de confidentialité, domaines et modes d'utilisation en aval. Pour évaluer notre approche, nous présentons un benchmark couvrant cinq jeux de données avec des domaines, des contraintes de confidentialité et des objectifs d'utilité variés. Dans tous les scénarios évalués, notre cadre atteint constamment un meilleur compromis confidentialité-utilité que les bases de référence existantes, tout en restant efficace sur le plan computationnel et performant sur les modèles de langage open source, avec une performance comparable à des modèles fermés plus volumineux. De plus, nous montrons que notre méthode peut découvrir de nouvelles stratégies d'anonymisation qui explorent différents points le long de la frontière des compromis confidentialité-utilité.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Anonymisation adaptative du texte : Apprentissage des compromis vie privée-utilité par optimisation de prompts

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Résumé

Support