Generazione Controllata per Testo Sintetico Privato

Abstract

L'anonimizzazione del testo è essenziale per sviluppare e implementare l'IA in modo responsabile in ambiti ad alto rischio come la sanità, i servizi sociali e il diritto. In questo lavoro, proponiamo una metodologia innovativa per la generazione sintetica di testo che preserva la privacy, sfruttando i principi della de-identificazione e la teoria del "Hiding In Plain Sight" (HIPS). Il nostro approccio introduce codici di controllo consapevoli delle entità per guidare la generazione controllabile utilizzando l'apprendimento in contesto (ICL) o il prefix tuning. La variante ICL garantisce livelli di privacy coerenti con il sistema di de-identificazione sottostante, mentre la variante prefix tuning incorpora una strategia di mascheramento personalizzata e una funzione di perdita per supportare una generazione scalabile e di alta qualità. Esperimenti su dataset legali e clinici dimostrano che il nostro metodo raggiunge un forte equilibrio tra protezione della privacy e utilità, offrendo una soluzione pratica ed efficace per la generazione sintetica di testo in domini sensibili.

English

Text anonymization is essential for responsibly developing and deploying AI in high-stakes domains such as healthcare, social services, and law. In this work, we propose a novel methodology for privacy-preserving synthetic text generation that leverages the principles of de-identification and the Hiding In Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes to guide controllable generation using either in-context learning (ICL) or prefix tuning. The ICL variant ensures privacy levels consistent with the underlying de-identification system, while the prefix tuning variant incorporates a custom masking strategy and loss function to support scalable, high-quality generation. Experiments on legal and clinical datasets demonstrate that our method achieves a strong balance between privacy protection and utility, offering a practical and effective solution for synthetic text generation in sensitive domains.

Generazione Controllata per Testo Sintetico Privato

Controlled Generation for Private Synthetic Text

Abstract

Support