Protezione dei Dati di Addestramento con Modelli di Diffusione Composizionali

Abstract

Introduciamo i Modelli di Diffusione Compartimentalizzati (CDM), un metodo per addestrare diversi modelli di diffusione (o prompt) su fonti di dati distinte e combinarli arbitrariamente al momento dell'inferenza. I singoli modelli possono essere addestrati in isolamento, in momenti diversi e su distribuzioni e domini differenti, per poi essere composti in seguito per ottenere prestazioni paragonabili a un modello di riferimento addestrato su tutti i dati simultaneamente. Inoltre, ciascun modello contiene solo informazioni relative al sottoinsieme di dati a cui è stato esposto durante l'addestramento, consentendo diverse forme di protezione dei dati di training. In particolare, i CDM sono il primo metodo che abilita sia la dimenticanza selettiva che l'apprendimento continuo per modelli di diffusione su larga scala, oltre a permettere la fornitura di modelli personalizzati in base ai diritti di accesso dell'utente. I CDM consentono anche di determinare l'importanza di un sottoinsieme di dati nella generazione di campioni specifici.

English

We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs are the first method to enable both selective forgetting and continual learning for large-scale diffusion models, as well as allowing serving customized models based on the user's access rights. CDMs also allow determining the importance of a subset of the data in generating particular samples.

Protezione dei Dati di Addestramento con Modelli di Diffusione Composizionali

Training Data Protection with Compositional Diffusion Models

Abstract

Support