Generazione Controllata per Testo Sintetico Privato
Controlled Generation for Private Synthetic Text
September 30, 2025
Autori: Zihao Zhao, Anjalie Field
cs.AI
Abstract
L'anonimizzazione del testo è essenziale per sviluppare e implementare l'IA in modo responsabile in ambiti ad alto rischio come la sanità, i servizi sociali e il diritto. In questo lavoro, proponiamo una metodologia innovativa per la generazione sintetica di testo che preserva la privacy, sfruttando i principi della de-identificazione e la teoria del "Hiding In Plain Sight" (HIPS). Il nostro approccio introduce codici di controllo consapevoli delle entità per guidare la generazione controllabile utilizzando l'apprendimento in contesto (ICL) o il prefix tuning. La variante ICL garantisce livelli di privacy coerenti con il sistema di de-identificazione sottostante, mentre la variante prefix tuning incorpora una strategia di mascheramento personalizzata e una funzione di perdita per supportare una generazione scalabile e di alta qualità. Esperimenti su dataset legali e clinici dimostrano che il nostro metodo raggiunge un forte equilibrio tra protezione della privacy e utilità, offrendo una soluzione pratica ed efficace per la generazione sintetica di testo in domini sensibili.
English
Text anonymization is essential for responsibly developing and deploying AI
in high-stakes domains such as healthcare, social services, and law. In this
work, we propose a novel methodology for privacy-preserving synthetic text
generation that leverages the principles of de-identification and the Hiding In
Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes
to guide controllable generation using either in-context learning (ICL) or
prefix tuning. The ICL variant ensures privacy levels consistent with the
underlying de-identification system, while the prefix tuning variant
incorporates a custom masking strategy and loss function to support scalable,
high-quality generation. Experiments on legal and clinical datasets demonstrate
that our method achieves a strong balance between privacy protection and
utility, offering a practical and effective solution for synthetic text
generation in sensitive domains.