ChatPaper.aiChatPaper

Aprovechar modelos de lenguaje de gran escala para generar texto sintético privado.

Harnessing large-language models to generate private synthetic text

June 2, 2023
Autores: Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas Terzis
cs.AI

Resumen

Los métodos de entrenamiento con privacidad diferencial (DP, por sus siglas en inglés), como DP-SGD, pueden proteger datos sensibles de entrenamiento al garantizar que los modelos de aprendizaje automático no revelen información privada. Un enfoque alternativo, que este artículo estudia, es utilizar un conjunto de datos sensibles para generar un nuevo conjunto de datos sintético que sea diferencialmente privado con respecto a los datos originales. Hacerlo tiene varias ventajas: los datos sintéticos pueden reutilizarse para otras tareas (incluyendo la optimización de hiperparámetros), conservarse indefinidamente o compartirse con terceros sin sacrificar la privacidad. Sin embargo, obtener datos con DP es mucho más difícil que introducir DP durante el entrenamiento. Para hacerlo factible en el caso de texto, trabajos recientes han utilizado datos públicos partiendo de un modelo generativo de lenguaje preentrenado y ajustándolo de manera privada con datos sensibles. Este modelo puede usarse para muestrear un conjunto de datos sintético con DP. Aunque esta estrategia parece sencilla, su ejecución ha demostrado ser problemática. Enfoques anteriores muestran una pérdida significativa de rendimiento o, como demostramos, tienen fallos críticos en su diseño. En este artículo demostramos que un objetivo de entrenamiento adecuado junto con el ajuste de menos parámetros resulta en una excelente calidad de datos sintéticos con DP. Nuestro enfoque es competitivo con el entrenamiento directo con DP de clasificadores en términos de rendimiento en tareas posteriores. También demostramos que nuestros datos sintéticos con DP no solo son útiles para entrenar clasificadores, sino también para ajustar esos mismos modelos.
English
Differentially private (DP) training methods like DP-SGD can protect sensitive training data by ensuring that ML models will not reveal private information. An alternative approach, which this paper studies, is to use a sensitive dataset to generate a new synthetic dataset which is differentially private with respect to the original data. Doing so has several advantages: synthetic data can be reused for other tasks (including for hyper parameter tuning), retained indefinitely, or shared with third parties without sacrificing privacy. However, obtaining DP data is much harder than introducing DP during training. To make it feasible for text, recent work has utilized public data by starting with a pre-trained generative language model and privately finetuning it on sensitive data. This model can be used to sample a DP synthetic dataset. While this strategy seems straightforward, executing it has proven problematic. Previous approaches either show significant performance loss, or have, as we show, critical design flaws. In this paper we demonstrate that a proper training objective along with tuning fewer parameters results in excellent DP synthetic data quality. Our approach is competitive with direct DP-training of downstream classifiers in terms of performance on downstream tasks. We also demonstrate that our DP synthetic data is not only useful for downstream classifier training, but also to tune those same models.
PDF30December 15, 2024