Quantização Vetorial usando Autoencoder Variacional Gaussiano
Vector Quantization using Gaussian Variational Autoencoder
December 7, 2025
Autores: Tongda Xu, Wendi Zheng, Jiajun He, Jose Miguel Hernandez-Lobato, Yan Wang, Ya-Qin Zhang, Jie Tang
cs.AI
Resumo
O autoencoder variacional quantizado vetorial (VQ-VAE) é um autoencoder discreto que comprime imagens em tokens discretos. É difícil de treinar devido à discretização. Neste artigo, propomos uma técnica simples mas eficaz, denominada Gaussian Quant (GQ), que converte um Gaussian VAE com uma determinada restrição num VQ-VAE sem necessidade de treino. A GQ gera ruído gaussiano aleatório como um livro de códigos e encontra o ruído mais próximo da média posterior. Teoricamente, provamos que quando o logaritmo do tamanho do livro de códigos excede a taxa de codificação *bits-back* do Gaussian VAE, um pequeno erro de quantização é garantido. Na prática, propomos uma heurística para treinar o Gaussian VAE para uma GQ eficaz, denominada *target divergence constraint* (TDC). Empiricamente, mostramos que a GQ supera VQ-VAEs anteriores, como VQGAN, FSQ, LFQ e BSQ, tanto em arquiteturas UNet como ViT. Além disso, a TDC também melhora os métodos anteriores de discretização de Gaussian VAE, como o TokenBridge. O código fonte é fornecido em https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
English
Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.