Protección de Datos de Entrenamiento con Modelos de Difusión Compositiva

Resumen

Presentamos los Modelos de Difusión Compartimentalizados (CDM, por sus siglas en inglés), un método para entrenar diferentes modelos de difusión (o prompts) en fuentes de datos distintas y componerlos de manera arbitraria durante la inferencia. Los modelos individuales pueden entrenarse de forma aislada, en momentos diferentes y en distribuciones y dominios distintos, y luego pueden combinarse para lograr un rendimiento comparable al de un modelo de referencia entrenado con todos los datos simultáneamente. Además, cada modelo solo contiene información sobre el subconjunto de datos al que fue expuesto durante el entrenamiento, lo que permite varias formas de protección de los datos de entrenamiento. En particular, los CDM son el primer método que habilita tanto el olvido selectivo como el aprendizaje continuo para modelos de difusión a gran escala, además de permitir ofrecer modelos personalizados según los derechos de acceso del usuario. Los CDM también permiten determinar la importancia de un subconjunto de datos en la generación de muestras específicas.

English

We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs are the first method to enable both selective forgetting and continual learning for large-scale diffusion models, as well as allowing serving customized models based on the user's access rights. CDMs also allow determining the importance of a subset of the data in generating particular samples.

Protección de Datos de Entrenamiento con Modelos de Difusión Compositiva

Training Data Protection with Compositional Diffusion Models

Resumen

Support