Gecontroleerde Generatie voor Privé Synthetische Tekst
Controlled Generation for Private Synthetic Text
September 30, 2025
Auteurs: Zihao Zhao, Anjalie Field
cs.AI
Samenvatting
Tekstanonimisering is essentieel voor het verantwoord ontwikkelen en inzetten van AI in hoogrisicodomeinen zoals gezondheidszorg, sociale diensten en rechtspraak. In dit werk stellen we een nieuwe methodologie voor voor privacybeschermende synthetische tekstgeneratie die gebruikmaakt van de principes van de-identificatie en de Hiding In Plain Sight (HIPS)-theorie. Onze aanpak introduceert entiteitsbewuste controlecodes om stuurbaar genereren te begeleiden met behulp van in-context learning (ICL) of prefix tuning. De ICL-variant waarborgt privacy niveaus die consistent zijn met het onderliggende de-identificatiesysteem, terwijl de prefix tuning-variant een aangepaste maskeringsstrategie en verliesfunctie omvat om schaalbare, hoogwaardige generatie te ondersteunen. Experimenten op juridische en klinische datasets tonen aan dat onze methode een sterke balans bereikt tussen privacybescherming en bruikbaarheid, en biedt zo een praktische en effectieve oplossing voor synthetische tekstgeneratie in gevoelige domeinen.
English
Text anonymization is essential for responsibly developing and deploying AI
in high-stakes domains such as healthcare, social services, and law. In this
work, we propose a novel methodology for privacy-preserving synthetic text
generation that leverages the principles of de-identification and the Hiding In
Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes
to guide controllable generation using either in-context learning (ICL) or
prefix tuning. The ICL variant ensures privacy levels consistent with the
underlying de-identification system, while the prefix tuning variant
incorporates a custom masking strategy and loss function to support scalable,
high-quality generation. Experiments on legal and clinical datasets demonstrate
that our method achieves a strong balance between privacy protection and
utility, offering a practical and effective solution for synthetic text
generation in sensitive domains.