Quantification Vectorielle par Autoencodeur Variationnel Gaussien
Vector Quantization using Gaussian Variational Autoencoder
December 7, 2025
papers.authors: Tongda Xu, Wendi Zheng, Jiajun He, Jose Miguel Hernandez-Lobato, Yan Wang, Ya-Qin Zhang, Jie Tang
cs.AI
papers.abstract
L'autoencodeur variationnel à quantification vectorielle (VQ-VAE) est un autoencodeur discret qui compresse les images en tokens discrets. Son entraînement est difficile en raison de la discrétisation. Dans cet article, nous proposons une technique simple mais efficace, baptisée Gaussian Quant (GQ), qui convertit un VAE gaussien avec une certaine contrainte en un VQ-VAE sans entraînement. GQ génère un bruit gaussien aléatoire comme livre de codes et trouve le bruit le plus proche de la moyenne a posteriori. Théoriquement, nous prouvons que lorsque le logarithme de la taille du livre de codes dépasse le taux de codage "bits-back" du VAE gaussien, une faible erreur de quantification est garantie. Pratiquement, nous proposons une heuristique pour entraîner le VAE gaussien en vue d'une GQ efficace, nommée contrainte de divergence cible (TDC). Empiriquement, nous montrons que GQ surpasse les VQ-VAE précédents, tels que VQGAN, FSQ, LFQ et BSQ, sur les architectures UNet et ViT. De plus, TDC améliore également les méthodes de discrétisation précédentes pour VAE gaussiens, comme TokenBridge. Le code source est disponible à l'adresse https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
English
Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.