Kontrollierte Erzeugung für private synthetische Texte
Controlled Generation for Private Synthetic Text
September 30, 2025
papers.authors: Zihao Zhao, Anjalie Field
cs.AI
papers.abstract
Textanonymisierung ist entscheidend für die verantwortungsvolle Entwicklung und den Einsatz von KI in hochsensiblen Bereichen wie dem Gesundheitswesen, sozialen Diensten und dem Recht. In dieser Arbeit schlagen wir eine neuartige Methodik zur privatsphäreschützenden synthetischen Texterzeugung vor, die die Prinzipien der De-Identifikation und die Theorie des „Hiding In Plain Sight“ (HIPS) nutzt. Unser Ansatz führt entitätsbezogene Steuercodes ein, um eine kontrollierte Generierung entweder durch In-Context-Learning (ICL) oder durch Präfix-Tuning zu ermöglichen. Die ICL-Variante gewährleistet ein Datenschutzniveau, das mit dem zugrunde liegenden De-Identifikationssystem übereinstimmt, während die Präfix-Tuning-Variante eine benutzerdefinierte Maskierungsstrategie und Verlustfunktion integriert, um skalierbare und qualitativ hochwertige Generierung zu unterstützen. Experimente mit juristischen und klinischen Datensätzen zeigen, dass unsere Methode eine starke Balance zwischen Datenschutz und Nutzen erreicht und somit eine praktische und effektive Lösung für die synthetische Texterzeugung in sensiblen Bereichen bietet.
English
Text anonymization is essential for responsibly developing and deploying AI
in high-stakes domains such as healthcare, social services, and law. In this
work, we propose a novel methodology for privacy-preserving synthetic text
generation that leverages the principles of de-identification and the Hiding In
Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes
to guide controllable generation using either in-context learning (ICL) or
prefix tuning. The ICL variant ensures privacy levels consistent with the
underlying de-identification system, while the prefix tuning variant
incorporates a custom masking strategy and loss function to support scalable,
high-quality generation. Experiments on legal and clinical datasets demonstrate
that our method achieves a strong balance between privacy protection and
utility, offering a practical and effective solution for synthetic text
generation in sensitive domains.