ChatPaper.aiChatPaper

Quantizzazione Vettoriale mediante Autoencoder Variazionale Gaussiano

Vector Quantization using Gaussian Variational Autoencoder

December 7, 2025
Autori: Tongda Xu, Wendi Zheng, Jiajun He, Jose Miguel Hernandez-Lobato, Yan Wang, Ya-Qin Zhang, Jie Tang
cs.AI

Abstract

Il variational autoencoder a vettori quantizzati (VQ-VAE) è un autoencoder discreto che comprime le immagini in token discreti. È difficile da addestrare a causa della discretizzazione. In questo articolo, proponiamo una tecnica semplice ma efficace, denominata Gaussian Quant (GQ), che converte un VAE gaussiano con un certo vincolo in un VQ-VAE senza addestramento. GQ genera rumore gaussiano casuale come codebook e trova il rumore più vicino alla media a posteriori. Teoricamente, dimostriamo che quando il logaritmo della dimensione del codebook supera il tasso di codifica bits-back del VAE gaussiano, è garantito un piccolo errore di quantizzazione. Praticamente, proponiamo un'euristica per addestrare il VAE gaussiano per una GQ efficace, denominata target divergence constraint (TDC). Empiricamente, mostriamo che GQ supera i precedenti VQ-VAE, come VQGAN, FSQ, LFQ e BSQ, sia su architetture UNet che ViT. Inoltre, TDC migliora anche i precedenti metodi di discretizzazione del VAE gaussiano, come TokenBridge. Il codice sorgente è disponibile su https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
English
Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
PDF12December 10, 2025