Proteção de Dados de Treinamento com Modelos de Difusão Composicionais
Training Data Protection with Compositional Diffusion Models
August 2, 2023
Autores: Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto
cs.AI
Resumo
Apresentamos os Modelos de Difusão Compartimentalizados (CDM), um método para treinar diferentes modelos de difusão (ou prompts) em fontes de dados distintas e compô-los arbitrariamente no momento da inferência. Os modelos individuais podem ser treinados de forma isolada, em momentos diferentes e em distribuições e domínios diversos, podendo ser posteriormente combinados para alcançar desempenho comparável a um modelo de referência treinado com todos os dados simultaneamente. Além disso, cada modelo contém apenas informações sobre o subconjunto de dados ao qual foi exposto durante o treinamento, permitindo diversas formas de proteção dos dados de treinamento. Em particular, os CDMs são o primeiro método a possibilitar tanto o esquecimento seletivo quanto o aprendizado contínuo para modelos de difusão em larga escala, além de permitir a disponibilização de modelos personalizados com base nos direitos de acesso do usuário. Os CDMs também permitem determinar a importância de um subconjunto de dados na geração de amostras específicas.
English
We introduce Compartmentalized Diffusion Models (CDM), a method to train
different diffusion models (or prompts) on distinct data sources and
arbitrarily compose them at inference time. The individual models can be
trained in isolation, at different times, and on different distributions and
domains and can be later composed to achieve performance comparable to a
paragon model trained on all data simultaneously. Furthermore, each model only
contains information about the subset of the data it was exposed to during
training, enabling several forms of training data protection. In particular,
CDMs are the first method to enable both selective forgetting and continual
learning for large-scale diffusion models, as well as allowing serving
customized models based on the user's access rights. CDMs also allow
determining the importance of a subset of the data in generating particular
samples.