ChatPaper.aiChatPaper

Gecontroleerde Generatie voor Privé Synthetische Tekst

Controlled Generation for Private Synthetic Text

September 30, 2025
Auteurs: Zihao Zhao, Anjalie Field
cs.AI

Samenvatting

Tekstanonimisering is essentieel voor het verantwoord ontwikkelen en inzetten van AI in hoogrisicodomeinen zoals gezondheidszorg, sociale diensten en rechtspraak. In dit werk stellen we een nieuwe methodologie voor voor privacybeschermende synthetische tekstgeneratie die gebruikmaakt van de principes van de-identificatie en de Hiding In Plain Sight (HIPS)-theorie. Onze aanpak introduceert entiteitsbewuste controlecodes om stuurbaar genereren te begeleiden met behulp van in-context learning (ICL) of prefix tuning. De ICL-variant waarborgt privacy niveaus die consistent zijn met het onderliggende de-identificatiesysteem, terwijl de prefix tuning-variant een aangepaste maskeringsstrategie en verliesfunctie omvat om schaalbare, hoogwaardige generatie te ondersteunen. Experimenten op juridische en klinische datasets tonen aan dat onze methode een sterke balans bereikt tussen privacybescherming en bruikbaarheid, en biedt zo een praktische en effectieve oplossing voor synthetische tekstgeneratie in gevoelige domeinen.
English
Text anonymization is essential for responsibly developing and deploying AI in high-stakes domains such as healthcare, social services, and law. In this work, we propose a novel methodology for privacy-preserving synthetic text generation that leverages the principles of de-identification and the Hiding In Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes to guide controllable generation using either in-context learning (ICL) or prefix tuning. The ICL variant ensures privacy levels consistent with the underlying de-identification system, while the prefix tuning variant incorporates a custom masking strategy and loss function to support scalable, high-quality generation. Experiments on legal and clinical datasets demonstrate that our method achieves a strong balance between privacy protection and utility, offering a practical and effective solution for synthetic text generation in sensitive domains.
PDF102October 3, 2025