Schutz von Trainingsdaten mit kompositionellen Diffusionsmodellen
Training Data Protection with Compositional Diffusion Models
August 2, 2023
papers.authors: Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto
cs.AI
papers.abstract
Wir stellen Compartmentalized Diffusion Models (CDM) vor, eine Methode, um verschiedene Diffusionsmodelle (oder Prompts) auf unterschiedlichen Datenquellen zu trainieren und sie zur Inferenzzeit beliebig zu kombinieren. Die einzelnen Modelle können isoliert, zu verschiedenen Zeitpunkten und auf verschiedenen Verteilungen und Domänen trainiert werden und später zusammengesetzt werden, um eine Leistung zu erzielen, die mit einem Referenzmodell vergleichbar ist, das auf allen Daten gleichzeitig trainiert wurde. Darüber hinaus enthält jedes Modell nur Informationen über die Teilmenge der Daten, denen es während des Trainings ausgesetzt war, was verschiedene Formen des Schutzes von Trainingsdaten ermöglicht. Insbesondere sind CDMs die erste Methode, die sowohl selektives Vergessen als auch kontinuierliches Lernen für großskalige Diffusionsmodelle ermöglicht, sowie die Bereitstellung individueller Modelle basierend auf den Zugriffsrechten der Benutzer erlaubt. CDMs ermöglichen es auch, die Bedeutung einer Teilmenge der Daten bei der Erzeugung bestimmter Samples zu bestimmen.
English
We introduce Compartmentalized Diffusion Models (CDM), a method to train
different diffusion models (or prompts) on distinct data sources and
arbitrarily compose them at inference time. The individual models can be
trained in isolation, at different times, and on different distributions and
domains and can be later composed to achieve performance comparable to a
paragon model trained on all data simultaneously. Furthermore, each model only
contains information about the subset of the data it was exposed to during
training, enabling several forms of training data protection. In particular,
CDMs are the first method to enable both selective forgetting and continual
learning for large-scale diffusion models, as well as allowing serving
customized models based on the user's access rights. CDMs also allow
determining the importance of a subset of the data in generating particular
samples.