Vektorquantisierung mittels Gauß'schem variationalen Autoencoder

papers.abstract

Der vektorquantisierte variationale Autoencoder (VQ-VAE) ist ein diskreter Autoencoder, der Bilder in diskrete Tokens komprimiert. Aufgrund der Diskretisierung ist er schwierig zu trainieren. In diesem Beitrag schlagen wir eine einfache, aber effektive Technik vor, genannt Gaussian Quant (GQ), die einen Gauß-VAE mit einer bestimmten Nebenbedingung ohne Training in einen VQ-VAE umwandelt. GQ erzeugt zufälliges Gaußsches Rauschen als Codebuch und findet das dem posteriori-Mittelwert nächste liegende Rauschen. Theoretisch beweisen wir, dass ein kleiner Quantisierungsfehler garantiert ist, wenn der Logarithmus der Codebuchgröße die Bits-Back-Coderate des Gauß-VAE übersteigt. Praktisch schlagen wir eine Heuristik vor, um den Gauß-VAE für eine effektive GQ zu trainieren, die Target Divergence Constraint (TDC) genannt wird. Empirisch zeigen wir, dass GQ auf sowohl UNet- als auch ViT-Architekturen bisherige VQ-VAEs wie VQGAN, FSQ, LFQ und BSQ übertrifft. Darüber hinaus verbessert TDC auch frühere Diskretisierungsmethoden für Gauß-VAEs, wie z.B. TokenBridge. Der Quellcode ist unter https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE verfügbar.

English

Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.

Vektorquantisierung mittels Gauß'schem variationalen Autoencoder

Vector Quantization using Gaussian Variational Autoencoder

papers.abstract

Support