Adaptieve Tekstanonimisering: Het Leren van Privacy-Nuttigheid Afwegingen via Promptoptimalisatie

Samenvatting

Het anonimiseren van tekstuele documenten is een sterk contextgevoelig probleem: de juiste balans tussen privacybescherming en behoud van bruikbaarheid varieert per datadomein, privacydoelstellingen en downstream-toepassingen. Bestaande anonimiseringsmethoden vertrouwen echter op statische, handmatig ontworpen strategieën die de flexibiliteit missen om zich aan te passen aan uiteenlopende vereisten en die vaak niet generaliseren over domeinen heen. Wij introduceren adaptieve tekstanonimisering, een nieuwe taakformulering waarbij anonimiseringsstrategieën automatisch worden aangepast aan specifieke privacy-bruikbaarheidseisen. Wij presenteren een raamwerk voor taakspecifieke promptoptimalisatie dat automatisch anonimiseringsinstructies voor taalmodellen construeert, waardoor aanpassing aan verschillende privacy-doelen, domeinen en downstream-gebruikspatronen mogelijk wordt. Ter evaluatie van onze aanpak presenteren we een benchmark die vijf datasets omvat met uiteenlopende domeinen, privacybeperkingen en bruikbaarheidsdoelen. In alle geëvalueerde settings behaalt ons raamwerk consistent een betere privacy-bruikbaarheid-balans dan bestaande baseline-methoden, waarbij het rekenkundig efficiënt blijft en effectief werkt op open-source taalmodellen, met prestaties die vergelijkbaar zijn met grotere closed-source modellen. Daarnaast tonen we aan dat onze methode nieuwe anonimiseringsstrategieën kan ontdekken die verschillende punten langs de privacy-bruikbaarheid-grens verkennen.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Adaptieve Tekstanonimisering: Het Leren van Privacy-Nuttigheid Afwegingen via Promptoptimalisatie

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Samenvatting

Support