ChatPaper.aiChatPaper

Geração Controlada para Texto Sintético Privado

Controlled Generation for Private Synthetic Text

September 30, 2025
Autores: Zihao Zhao, Anjalie Field
cs.AI

Resumo

A anonimização de texto é essencial para o desenvolvimento e implantação responsável de IA em domínios de alto impacto, como saúde, serviços sociais e direito. Neste trabalho, propomos uma nova metodologia para geração de texto sintético que preserva a privacidade, utilizando os princípios de desidentificação e a teoria Hiding In Plain Sight (HIPS). Nossa abordagem introduz códigos de controle conscientes de entidades para orientar a geração controlável, seja por meio de aprendizado em contexto (ICL) ou ajuste de prefixo. A variante ICL garante níveis de privacidade consistentes com o sistema de desidentificação subjacente, enquanto a variante de ajuste de prefixo incorpora uma estratégia de mascaramento personalizada e uma função de perda para suportar geração escalável e de alta qualidade. Experimentos em conjuntos de dados jurídicos e clínicos demonstram que nosso método alcança um forte equilíbrio entre proteção de privacidade e utilidade, oferecendo uma solução prática e eficaz para geração de texto sintético em domínios sensíveis.
English
Text anonymization is essential for responsibly developing and deploying AI in high-stakes domains such as healthcare, social services, and law. In this work, we propose a novel methodology for privacy-preserving synthetic text generation that leverages the principles of de-identification and the Hiding In Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes to guide controllable generation using either in-context learning (ICL) or prefix tuning. The ICL variant ensures privacy levels consistent with the underlying de-identification system, while the prefix tuning variant incorporates a custom masking strategy and loss function to support scalable, high-quality generation. Experiments on legal and clinical datasets demonstrate that our method achieves a strong balance between privacy protection and utility, offering a practical and effective solution for synthetic text generation in sensitive domains.
PDF102October 3, 2025