Proteção de Dados de Treinamento com Modelos de Difusão Composicionais

Resumo

Apresentamos os Modelos de Difusão Compartimentalizados (CDM), um método para treinar diferentes modelos de difusão (ou prompts) em fontes de dados distintas e compô-los arbitrariamente no momento da inferência. Os modelos individuais podem ser treinados de forma isolada, em momentos diferentes e em distribuições e domínios diversos, podendo ser posteriormente combinados para alcançar desempenho comparável a um modelo de referência treinado com todos os dados simultaneamente. Além disso, cada modelo contém apenas informações sobre o subconjunto de dados ao qual foi exposto durante o treinamento, permitindo diversas formas de proteção dos dados de treinamento. Em particular, os CDMs são o primeiro método a possibilitar tanto o esquecimento seletivo quanto o aprendizado contínuo para modelos de difusão em larga escala, além de permitir a disponibilização de modelos personalizados com base nos direitos de acesso do usuário. Os CDMs também permitem determinar a importância de um subconjunto de dados na geração de amostras específicas.

English

We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs are the first method to enable both selective forgetting and continual learning for large-scale diffusion models, as well as allowing serving customized models based on the user's access rights. CDMs also allow determining the importance of a subset of the data in generating particular samples.

Proteção de Dados de Treinamento com Modelos de Difusão Composicionais

Training Data Protection with Compositional Diffusion Models

Resumo

Support