적응형 텍스트 익명화: 프롬프트 최적화를 통한 프라이버시-유틸리티 트레이드오프 학습

초록

텍스트 문서 익명화는 매우 맥락에 민감한 문제로, 개인정보 보호와 유틸리티 보존 간의 적절한 균형은 데이터 도메인, 개인정보 보호 목표, 하위 애플리케이션에 따라 달라집니다. 그러나 기존 익명화 방법은 정적이며 수동으로 설계된 전략에 의존하여 다양한 요구 사항에 맞춰 조정할 수 있는 유연성이 부족하고, 도메인 간 일반화에 종종 실패합니다. 본 연구에서는 익명화 전략이 특정 개인정보-유틸리티 요구 사항에 맞춰 자동으로 조정되는 새로운 과제 구성인 적응형 텍스트 익명화를 소개합니다. 우리는 언어 모델을 위한 익명화 지침을 자동으로 구성하여 서로 다른 개인정보 보호 목표, 도메인, 하위 사용 패턴에의 적응을 가능하게 하는 과제 특화 프롬프트 최적화 프레임워크를 제안합니다. 우리의 접근법을 평가하기 위해 다양한 도메인, 개인정보 제약 조건, 유틸리티 목표를 가진 5개 데이터셋을 아우르는 벤치마크를 제시합니다. 평가된 모든 설정에서 우리의 프레임워크는 기존 베이스라인보다 일관되게 더 나은 개인정보-유틸리티 트레이드오프를 달성하면서도 계산적으로 효율적이며 오픈소스 언어 모델에서 효과적으로 작동하고, 더 큰 규모의 클로즈드소스 모델에 버금가는 성능을 보입니다. 또한, 우리의 방법이 개인정보-유틸리티 트레이드오프 프론티어를 따라 다양한 지점을 탐색하는 새로운 익명화 전략을 발견할 수 있음을 보여줍니다.

English

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

적응형 텍스트 익명화: 프롬프트 최적화를 통한 프라이버시-유틸리티 트레이드오프 학습

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

초록

Support