Anonimização Adaptativa de Texto: Aprendendo Compensações entre Privacidade e Utilidade por meio de Otimização de Prompts

Resumo

A anonimização de documentos textuais é um problema altamente dependente do contexto: o equilíbrio adequado entre a proteção da privacidade e a preservação da utilidade varia conforme o domínio dos dados, os objetivos de privacidade e a aplicação subsequente. No entanto, os métodos de anonimização existentes baseiam-se em estratégias estáticas, concebidas manualmente, que carecem da flexibilidade necessária para se adaptarem a requisitos diversos e frequentemente falham em generalizar entre domínios. Introduzimos a anonimização de texto adaptativa, uma nova formulação de tarefa na qual as estratégias de anonimização são automaticamente adaptadas a requisitos específicos de privacidade e utilidade. Propomos um quadro de otimização de *prompts* específico da tarefa que constrói automaticamente instruções de anonimização para modelos de linguagem, permitindo a adaptação a diferentes objetivos de privacidade, domínios e padrões de utilização subsequente. Para avaliar a nossa abordagem, apresentamos um *benchmark* que abrange cinco conjuntos de dados com domínios, restrições de privacidade e objetivos de utilidade diversos. Em todos os cenários avaliados, o nosso quadro alcança consistentemente um melhor equilíbrio entre privacidade e utilidade do que as linhas de base existentes, mantendo-se computacionalmente eficiente e eficaz em modelos de linguagem de código aberto, com um desempenho comparável a modelos maiores de código fechado. Adicionalmente, demonstramos que o nosso método pode descobrir novas estratégias de anonimização que exploram diferentes pontos ao longo da fronteira de equilíbrio entre privacidade e utilidade.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Anonimização Adaptativa de Texto: Aprendendo Compensações entre Privacidade e Utilidade por meio de Otimização de Prompts

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Resumo

Support