Anonimización Adaptativa de Texto: Aprendizaje de Compromisos entre Privacidad y Utilidad mediante Optimización de Prompts

Resumen

La anonimización de documentos textuales es un problema altamente dependiente del contexto: el equilibrio adecuado entre la protección de la privacidad y la preservación de la utilidad varía según el dominio de los datos, los objetivos de privacidad y la aplicación posterior. Sin embargo, los métodos de anonimización existentes se basan en estrategias estáticas diseñadas manualmente que carecen de la flexibilidad para adaptarse a requisitos diversos y a menudo no logran generalizarse entre dominios. Introducimos la anonimización de texto adaptativa, una nueva formulación de tarea en la que las estrategias de anonimización se adaptan automáticamente a requisitos específicos de privacidad-utilidad. Proponemos un marco de optimización de instrucciones específico para la tarea que construye automáticamente instrucciones de anonimización para modelos de lenguaje, permitiendo la adaptación a diferentes objetivos de privacidad, dominios y patrones de uso posteriores. Para evaluar nuestro enfoque, presentamos un punto de referencia que abarca cinco conjuntos de datos con dominios diversos, restricciones de privacidad y objetivos de utilidad. En todos los escenarios evaluados, nuestro marco logra consistentemente un mejor equilibrio entre privacidad y utilidad que los métodos base existentes, manteniéndose computacionalmente eficiente y efectivo en modelos de lenguaje de código abierto, con un rendimiento comparable al de modelos propietarios más grandes. Adicionalmente, demostramos que nuestro método puede descubrir estrategias de anonimización novedosas que exploran diferentes puntos a lo largo de la frontera de equilibrio entre privacidad y utilidad.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Anonimización Adaptativa de Texto: Aprendizaje de Compromisos entre Privacidad y Utilidad mediante Optimización de Prompts

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Resumen

Support