DisCo-Diff: Verbesserung von kontinuierlichen Diffusionsmodellen mit diskreten Latenten

papers.abstract

Diffusionsmodelle (DMs) haben das generative Lernen revolutioniert. Sie nutzen einen Diffusionsprozess, um Daten in eine einfache Gaußverteilung zu kodieren. Allerdings stellt die Kodierung einer komplexen, potenziell multimodalen Datenverteilung in eine einzige kontinuierliche Gaußverteilung möglicherweise ein unnötig herausforderndes Lernproblem dar. Wir schlagen Discrete-Continuous Latent Variable Diffusion Models (DisCo-Diff) vor, um diese Aufgabe zu vereinfachen, indem wir ergänzende diskrete latente Variablen einführen. Wir erweitern DMs um erlernbare diskrete Latente, die mit einem Encoder inferiert werden, und trainieren DM und Encoder end-to-end. DisCo-Diff ist nicht auf vorab trainierte Netzwerke angewiesen, was das Framework universell anwendbar macht. Die diskreten Latenten vereinfachen das Lernen der komplexen Rausch-zu-Daten-Abbildung des DMs erheblich, indem sie die Krümmung der generativen ODE des DMs reduzieren. Ein zusätzlicher autoregressiver Transformer modelliert die Verteilung der diskreten Latenten, ein einfacher Schritt, da DisCo-Diff nur wenige diskrete Variablen mit kleinen Codebüchern erfordert. Wir validieren DisCo-Diff an Spielzeugdaten, mehreren Bildsynthesetasks sowie molekularer Docking, und stellen fest, dass die Einführung diskreter Latenten die Modellleistung konsistent verbessert. Zum Beispiel erzielt DisCo-Diff state-of-the-art FID-Werte auf klassenbedingten ImageNet-64/128 Datensätzen mit ODE-Sampler.

English

Diffusion models (DMs) have revolutionized generative learning. They utilize a diffusion process to encode data into a simple Gaussian distribution. However, encoding a complex, potentially multimodal data distribution into a single continuous Gaussian distribution arguably represents an unnecessarily challenging learning problem. We propose Discrete-Continuous Latent Variable Diffusion Models (DisCo-Diff) to simplify this task by introducing complementary discrete latent variables. We augment DMs with learnable discrete latents, inferred with an encoder, and train DM and encoder end-to-end. DisCo-Diff does not rely on pre-trained networks, making the framework universally applicable. The discrete latents significantly simplify learning the DM's complex noise-to-data mapping by reducing the curvature of the DM's generative ODE. An additional autoregressive transformer models the distribution of the discrete latents, a simple step because DisCo-Diff requires only few discrete variables with small codebooks. We validate DisCo-Diff on toy data, several image synthesis tasks as well as molecular docking, and find that introducing discrete latents consistently improves model performance. For example, DisCo-Diff achieves state-of-the-art FID scores on class-conditioned ImageNet-64/128 datasets with ODE sampler.

DisCo-Diff: Verbesserung von kontinuierlichen Diffusionsmodellen mit diskreten Latenten

DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

papers.abstract

Support