ChatPaper.aiChatPaper

Génération Contrôlée pour le Texte Synthétique Privé

Controlled Generation for Private Synthetic Text

September 30, 2025
papers.authors: Zihao Zhao, Anjalie Field
cs.AI

papers.abstract

L'anonymisation des textes est essentielle pour développer et déployer de manière responsable l'intelligence artificielle dans des domaines à enjeux élevés tels que la santé, les services sociaux et le droit. Dans ce travail, nous proposons une nouvelle méthodologie pour la génération de textes synthétiques préservant la confidentialité, qui s'appuie sur les principes de la dé-identification et la théorie du « Hiding In Plain Sight » (HIPS). Notre approche introduit des codes de contrôle conscients des entités pour guider une génération contrôlée en utilisant soit l'apprentissage en contexte (ICL), soit le réglage de préfixe. La variante ICL garantit des niveaux de confidentialité conformes au système de dé-identification sous-jacent, tandis que la variante de réglage de préfixe intègre une stratégie de masquage personnalisée et une fonction de perte pour soutenir une génération évolutive et de haute qualité. Les expériences menées sur des ensembles de données juridiques et cliniques démontrent que notre méthode atteint un équilibre solide entre protection de la confidentialité et utilité, offrant une solution pratique et efficace pour la génération de textes synthétiques dans des domaines sensibles.
English
Text anonymization is essential for responsibly developing and deploying AI in high-stakes domains such as healthcare, social services, and law. In this work, we propose a novel methodology for privacy-preserving synthetic text generation that leverages the principles of de-identification and the Hiding In Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes to guide controllable generation using either in-context learning (ICL) or prefix tuning. The ICL variant ensures privacy levels consistent with the underlying de-identification system, while the prefix tuning variant incorporates a custom masking strategy and loss function to support scalable, high-quality generation. Experiments on legal and clinical datasets demonstrate that our method achieves a strong balance between privacy protection and utility, offering a practical and effective solution for synthetic text generation in sensitive domains.
PDF22October 3, 2025