Protección de Datos de Entrenamiento con Modelos de Difusión Compositiva
Training Data Protection with Compositional Diffusion Models
August 2, 2023
Autores: Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto
cs.AI
Resumen
Presentamos los Modelos de Difusión Compartimentalizados (CDM, por sus siglas en inglés), un método para entrenar diferentes modelos de difusión (o prompts) en fuentes de datos distintas y componerlos de manera arbitraria durante la inferencia. Los modelos individuales pueden entrenarse de forma aislada, en momentos diferentes y en distribuciones y dominios distintos, y luego pueden combinarse para lograr un rendimiento comparable al de un modelo de referencia entrenado con todos los datos simultáneamente. Además, cada modelo solo contiene información sobre el subconjunto de datos al que fue expuesto durante el entrenamiento, lo que permite varias formas de protección de los datos de entrenamiento. En particular, los CDM son el primer método que habilita tanto el olvido selectivo como el aprendizaje continuo para modelos de difusión a gran escala, además de permitir ofrecer modelos personalizados según los derechos de acceso del usuario. Los CDM también permiten determinar la importancia de un subconjunto de datos en la generación de muestras específicas.
English
We introduce Compartmentalized Diffusion Models (CDM), a method to train
different diffusion models (or prompts) on distinct data sources and
arbitrarily compose them at inference time. The individual models can be
trained in isolation, at different times, and on different distributions and
domains and can be later composed to achieve performance comparable to a
paragon model trained on all data simultaneously. Furthermore, each model only
contains information about the subset of the data it was exposed to during
training, enabling several forms of training data protection. In particular,
CDMs are the first method to enable both selective forgetting and continual
learning for large-scale diffusion models, as well as allowing serving
customized models based on the user's access rights. CDMs also allow
determining the importance of a subset of the data in generating particular
samples.