Адаптивная анонимизация текста: изучение компромиссов между конфиденциальностью и полезностью с помощью оптимизации промптов

Аннотация

Анонимизация текстовых документов представляет собой высококонтекстно-зависимую проблему: оптимальный баланс между защитой приватности и сохранением полезности данных варьируется в зависимости от предметной области, целей конфиденциальности и последующего применения. Однако существующие методы анонимизации опираются на статические, вручную разработанные стратегии, которые не обладают гибкостью для адаптации к разнообразным требованиям и часто не обобщаются на различные домены. Мы представляем адаптивную текстовую анонимизацию — новую постановку задачи, в которой стратегии анонимизации автоматически адаптируются под конкретные требования к приватности и полезности. Предлагается фреймворк для оптимизации промптов под конкретную задачу, который автоматически формирует инструкции по анонимизации для языковых моделей, обеспечивая адаптацию к различным целям приватности, доменам и сценариям использования. Для оценки нашего подхода представлен бенчмарк, охватывающий пять наборов данных с разнородными доменами, ограничениями приватности и целевыми показателями полезности. Во всех оцениваемых сценариях наш фреймворк стабильно достигает лучшего баланса между приватностью и полезностью по сравнению с существующими базовыми методами, сохраняя вычислительную эффективность и демонстрируя результативность на открытых языковых моделях, сопоставимую с производительностью более крупных проприетарных моделей. Кроме того, мы показываем, что наш метод способен обнаруживать новые стратегии анонимизации, исследующие различные точки на границе компромисса между приватностью и полезностью.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

Адаптивная анонимизация текста: изучение компромиссов между конфиденциальностью и полезностью с помощью оптимизации промптов

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Аннотация

Support