Vectorkwantisatie met Gaussische Variationale Auto-encoder
Vector Quantization using Gaussian Variational Autoencoder
December 7, 2025
Auteurs: Tongda Xu, Wendi Zheng, Jiajun He, Jose Miguel Hernandez-Lobato, Yan Wang, Ya-Qin Zhang, Jie Tang
cs.AI
Samenvatting
De vectorgekwantiseerde variational auto-encoder (VQ-VAE) is een discrete auto-encoder die afbeeldingen comprimeert tot discrete tokens. De training is lastig vanwege de discretisering. In dit artikel stellen we een eenvoudige doch effectieve techniek voor, genaamd Gaussian Quant (GQ), die een Gaussische VAE met een bepaalde beperking omzet in een VQ-VAE zonder training. GQ genereert willekeurige Gaussische ruis als codeboek en vindt de dichtstbijzijnde ruis ten opzichte van het posterior gemiddelde. Theoretisch bewijzen we dat wanneer de logaritme van de codeboekgrootte de bits-back coderingssnelheid van de Gaussische VAE overschrijdt, een kleine kwantiseringsfout gegarandeerd is. Praktisch gezien stellen we een heuristiek voor om een Gaussische VAE te trainen voor effectieve GQ, genaamd target divergence constraint (TDC). Empirisch tonen we aan dat GQ eerdere VQ-VAE's, zoals VQGAN, FSQ, LFQ en BSQ, overtreft op zowel UNet- als ViT-architecturen. Bovendien verbetert TDC ook eerdere discretiseringsmethoden voor Gaussische VAE's, zoals TokenBridge. De broncode is beschikbaar op https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
English
Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.