Adaptive Textanonymisierung: Erlernen von Privatsphäre-Nutzen-Kompromitten durch Prompt-Optimierung

Zusammenfassung

Die Anonymisierung textueller Dokumente ist ein hochgradig kontextsensitives Problem: Das angemessene Gleichgewicht zwischen Privatsphärenschutz und Datennützlichkeit variiert je nach Datenbereich, Datenschutzzielen und nachgelagerten Anwendungen. Bisherige Anonymisierungsmethoden beruhen jedoch auf statischen, manuell entworfenen Strategien, denen die Flexibilität fehlt, um sich an unterschiedliche Anforderungen anzupassen, und die häufig domänenübergreifend nicht verallgemeinerbar sind. Wir führen adaptive Textanonymisierung ein, eine neue Aufgabenformulierung, bei der Anonymisierungsstrategien automatisch an spezifische Privatsphären-Nützlichkeits-Anforderungen angepasst werden. Wir schlagen ein Framework zur aufgaben spezifischen Prompt-Optimierung vor, das automatisch Anonymisierungsinstruktionen für Sprachmodelle erstellt und so die Anpassung an verschiedene Datenschutzziele, Domänen und Nutzungsmuster ermöglicht. Zur Evaluation unseres Ansatzes präsentieren wir einen Benchmark mit fünf Datensätzen, die unterschiedliche Domänen, Datenschutzauflagen und Nützlichkeitsziele abdecken. In allen evaluierten Settings erzielt unser Framework durchgängig eine bessere Privatsphären-Nützlichkeits-Abwägung als bestehende Baseline-Methoden, bleibt dabei recheneffizient und effektiv auf Open-Source-Sprachmodellen mit einer Leistung, die mit größeren Closed-Source-Modellen vergleichbar ist. Zudem zeigen wir, dass unsere Methode neuartige Anonymisierungsstrategien entdecken kann, die verschiedene Punkte entlang der Privatsphären-Nützlichkeits-Grenze erkunden.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Adaptive Textanonymisierung: Erlernen von Privatsphäre-Nutzen-Kompromitten durch Prompt-Optimierung

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Zusammenfassung

Support