Protezione dei Dati di Addestramento con Modelli di Diffusione Composizionali
Training Data Protection with Compositional Diffusion Models
August 2, 2023
Autori: Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto
cs.AI
Abstract
Introduciamo i Modelli di Diffusione Compartimentalizzati (CDM), un metodo per addestrare diversi modelli di diffusione (o prompt) su fonti di dati distinte e combinarli arbitrariamente al momento dell'inferenza. I singoli modelli possono essere addestrati in isolamento, in momenti diversi e su distribuzioni e domini differenti, per poi essere composti in seguito per ottenere prestazioni paragonabili a un modello di riferimento addestrato su tutti i dati simultaneamente. Inoltre, ciascun modello contiene solo informazioni relative al sottoinsieme di dati a cui è stato esposto durante l'addestramento, consentendo diverse forme di protezione dei dati di training. In particolare, i CDM sono il primo metodo che abilita sia la dimenticanza selettiva che l'apprendimento continuo per modelli di diffusione su larga scala, oltre a permettere la fornitura di modelli personalizzati in base ai diritti di accesso dell'utente. I CDM consentono anche di determinare l'importanza di un sottoinsieme di dati nella generazione di campioni specifici.
English
We introduce Compartmentalized Diffusion Models (CDM), a method to train
different diffusion models (or prompts) on distinct data sources and
arbitrarily compose them at inference time. The individual models can be
trained in isolation, at different times, and on different distributions and
domains and can be later composed to achieve performance comparable to a
paragon model trained on all data simultaneously. Furthermore, each model only
contains information about the subset of the data it was exposed to during
training, enabling several forms of training data protection. In particular,
CDMs are the first method to enable both selective forgetting and continual
learning for large-scale diffusion models, as well as allowing serving
customized models based on the user's access rights. CDMs also allow
determining the importance of a subset of the data in generating particular
samples.