Modelado Generativo Eficiente con Tokens basados en Cuantificación de Vectores Residuales

Resumen

Exploramos el uso de la Cuantización Vectorial Residual (CVR) para la generación de alta fidelidad en modelos generativos cuantificados por vectores. Esta técnica de cuantización mantiene una mayor fidelidad de datos al emplear tokens más profundos. Sin embargo, aumentar el número de tokens en modelos generativos conlleva a velocidades de inferencia más lentas. Con este fin, presentamos ResGen, un modelo de difusión discreta eficiente basado en CVR que genera muestras de alta fidelidad sin comprometer la velocidad de muestreo. Nuestra idea clave es la predicción directa de la incrustación vectorial de tokens colectivos en lugar de individuales. Además, demostramos que nuestro método propuesto de enmascaramiento de tokens y predicción de múltiples tokens puede formularse dentro de un marco probabilístico fundamentado utilizando un proceso de difusión discreta e inferencia variacional. Validamos la eficacia y generalizabilidad del método propuesto en dos tareas desafiantes en diferentes modalidades: generación de imágenes condicionales en ImageNet 256x256 y síntesis de texto a voz sin ejemplos. Los resultados experimentales demuestran que ResGen supera a los contrapartes autoregresivos en ambas tareas, ofreciendo un rendimiento superior sin comprometer la velocidad de muestreo. Además, a medida que aumentamos la profundidad de CVR, nuestros modelos generativos muestran una mayor fidelidad de generación o velocidades de muestreo más rápidas en comparación con modelos base de tamaño similar. La página del proyecto se puede encontrar en https://resgen-genai.github.io

English

We explore the use of Residual Vector Quantization (RVQ) for high-fidelity generation in vector-quantized generative models. This quantization technique maintains higher data fidelity by employing more in-depth tokens. However, increasing the token number in generative models leads to slower inference speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete diffusion model that generates high-fidelity samples without compromising sampling speed. Our key idea is a direct prediction of vector embedding of collective tokens rather than individual ones. Moreover, we demonstrate that our proposed token masking and multi-token prediction method can be formulated within a principled probabilistic framework using a discrete diffusion process and variational inference. We validate the efficacy and generalizability of the proposed method on two challenging tasks across different modalities: conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech synthesis. Experimental results demonstrate that ResGen outperforms autoregressive counterparts in both tasks, delivering superior performance without compromising sampling speed. Furthermore, as we scale the depth of RVQ, our generative models exhibit enhanced generation fidelity or faster sampling speeds compared to similarly sized baseline models. The project page can be found at https://resgen-genai.github.io

Modelado Generativo Eficiente con Tokens basados en Cuantificación de Vectores Residuales

Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

Resumen

Support