Modélisation générative efficace avec des jetons basés sur la quantification vectorielle résiduelle
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
December 13, 2024
Auteurs: Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
cs.AI
Résumé
Nous explorons l'utilisation de la Quantification Vectorielle Résiduelle (QVR) pour la génération haute fidélité dans les modèles génératifs quantifiés par vecteur. Cette technique de quantification maintient une fidélité de données plus élevée en utilisant des jetons plus approfondis. Cependant, augmenter le nombre de jetons dans les modèles génératifs entraîne des vitesses d'inférence plus lentes. À cette fin, nous introduisons ResGen, un modèle de diffusion discret efficace basé sur la QVR qui génère des échantillons haute fidélité sans compromettre la vitesse d'échantillonnage. Notre idée clé est une prédiction directe de l'incorporation vectorielle des jetons collectifs plutôt que individuels. De plus, nous démontrons que notre méthode de masquage de jetons proposée et de prédiction multi-jetons peut être formulée dans un cadre probabiliste fondé sur un processus de diffusion discret et une inférence variationnelle. Nous validons l'efficacité et la généralisabilité de la méthode proposée sur deux tâches difficiles à travers différentes modalités : génération d'images conditionnelles sur ImageNet 256x256 et synthèse de texte en parole sans apprentissage préalable. Les résultats expérimentaux montrent que ResGen surpasse les homologues autorégressifs dans les deux tâches, offrant des performances supérieures sans compromettre la vitesse d'échantillonnage. De plus, à mesure que nous augmentons la profondeur de la QVR, nos modèles génératifs présentent une fidélité de génération améliorée ou des vitesses d'échantillonnage plus rapides par rapport à des modèles de référence de taille similaire. La page du projet est disponible sur https://resgen-genai.github.io
English
We explore the use of Residual Vector Quantization (RVQ) for high-fidelity
generation in vector-quantized generative models. This quantization technique
maintains higher data fidelity by employing more in-depth tokens. However,
increasing the token number in generative models leads to slower inference
speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete
diffusion model that generates high-fidelity samples without compromising
sampling speed. Our key idea is a direct prediction of vector embedding of
collective tokens rather than individual ones. Moreover, we demonstrate that
our proposed token masking and multi-token prediction method can be formulated
within a principled probabilistic framework using a discrete diffusion process
and variational inference. We validate the efficacy and generalizability of the
proposed method on two challenging tasks across different modalities:
conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech
synthesis. Experimental results demonstrate that ResGen outperforms
autoregressive counterparts in both tasks, delivering superior performance
without compromising sampling speed. Furthermore, as we scale the depth of RVQ,
our generative models exhibit enhanced generation fidelity or faster sampling
speeds compared to similarly sized baseline models. The project page can be
found at https://resgen-genai.github.ioSummary
AI-Generated Summary