Generación Controlada para Texto Sintético Privado
Controlled Generation for Private Synthetic Text
September 30, 2025
Autores: Zihao Zhao, Anjalie Field
cs.AI
Resumen
La anonimización de textos es esencial para el desarrollo y despliegue responsable de la inteligencia artificial en dominios de alto impacto como la atención médica, los servicios sociales y el ámbito legal. En este trabajo, proponemos una metodología novedosa para la generación sintética de textos que preserva la privacidad, basada en los principios de desidentificación y la teoría de Ocultarse a Simple Vista (HIPS, por sus siglas en inglés). Nuestro enfoque introduce códigos de control conscientes de entidades para guiar la generación controlada utilizando aprendizaje en contexto (ICL, por sus siglas en inglés) o ajuste de prefijos. La variante ICL garantiza niveles de privacidad consistentes con el sistema de desidentificación subyacente, mientras que la variante de ajuste de prefijos incorpora una estrategia de enmascaramiento personalizada y una función de pérdida para respaldar una generación escalable y de alta calidad. Los experimentos realizados en conjuntos de datos legales y clínicos demuestran que nuestro método logra un equilibrio sólido entre la protección de la privacidad y la utilidad, ofreciendo una solución práctica y efectiva para la generación de textos sintéticos en dominios sensibles.
English
Text anonymization is essential for responsibly developing and deploying AI
in high-stakes domains such as healthcare, social services, and law. In this
work, we propose a novel methodology for privacy-preserving synthetic text
generation that leverages the principles of de-identification and the Hiding In
Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes
to guide controllable generation using either in-context learning (ICL) or
prefix tuning. The ICL variant ensures privacy levels consistent with the
underlying de-identification system, while the prefix tuning variant
incorporates a custom masking strategy and loss function to support scalable,
high-quality generation. Experiments on legal and clinical datasets demonstrate
that our method achieves a strong balance between privacy protection and
utility, offering a practical and effective solution for synthetic text
generation in sensitive domains.