Anonimizzazione Testuale Adattiva: Apprendimento dei Compromessi tra Privacy e Utilità tramite Ottimizzazione dei Prompt

Abstract

L'anonimizzazione di documenti testuali è un problema altamente sensibile al contesto: l'equilibrio appropriato tra protezione della privacy e preservazione dell'utilità varia in base al dominio dei dati, agli obiettivi di privacy e all'applicazione downstream. Tuttavia, i metodi di anonimizzazione esistenti si basano su strategie statiche, progettate manualmente, che mancano della flessibilità necessaria per adattarsi a requisiti diversi e spesso non riescono a generalizzare attraverso i domini. Introduciamo l'anonimizzazione testuale adattiva, una nuova formulazione del compito in cui le strategie di anonimizzazione vengono adattate automaticamente a specifici requisiti privacy-utilità. Proponiamo un framework per l'ottimizzazione adattiva del prompt che costruisce automaticamente istruzioni di anonimizzazione per i modelli linguistici, consentendo l'adattamento a diversi obiettivi di privacy, domini e pattern d'uso downstream. Per valutare il nostro approccio, presentiamo un benchmark che copre cinque dataset con domini, vincoli di privacy e obiettivi di utilità diversi. In tutte le impostazioni valutate, il nostro framework raggiunge costantemente un miglior trade-off privacy-utilità rispetto ai baseline esistenti, rimanendo computazionalmente efficiente ed efficace su modelli linguistici open-source, con prestazioni paragonabili a modelli closed-source più grandi. Inoltre, dimostriamo che il nostro metodo può scoprire nuove strategie di anonimizzazione che esplorano diversi punti lungo la frontiera del trade-off privacy-utilità.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Anonimizzazione Testuale Adattiva: Apprendimento dei Compromessi tra Privacy e Utilità tramite Ottimizzazione dei Prompt

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Abstract

Support