Modelado Generativo Eficiente con Tokens basados en Cuantificación de Vectores Residuales
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
December 13, 2024
Autores: Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
cs.AI
Resumen
Exploramos el uso de la Cuantización Vectorial Residual (CVR) para la generación de alta fidelidad en modelos generativos cuantificados por vectores. Esta técnica de cuantización mantiene una mayor fidelidad de datos al emplear tokens más profundos. Sin embargo, aumentar el número de tokens en modelos generativos conlleva a velocidades de inferencia más lentas. Con este fin, presentamos ResGen, un modelo de difusión discreta eficiente basado en CVR que genera muestras de alta fidelidad sin comprometer la velocidad de muestreo. Nuestra idea clave es la predicción directa de la incrustación vectorial de tokens colectivos en lugar de individuales. Además, demostramos que nuestro método propuesto de enmascaramiento de tokens y predicción de múltiples tokens puede formularse dentro de un marco probabilístico fundamentado utilizando un proceso de difusión discreta e inferencia variacional. Validamos la eficacia y generalizabilidad del método propuesto en dos tareas desafiantes en diferentes modalidades: generación de imágenes condicionales en ImageNet 256x256 y síntesis de texto a voz sin ejemplos. Los resultados experimentales demuestran que ResGen supera a los contrapartes autoregresivos en ambas tareas, ofreciendo un rendimiento superior sin comprometer la velocidad de muestreo. Además, a medida que aumentamos la profundidad de CVR, nuestros modelos generativos muestran una mayor fidelidad de generación o velocidades de muestreo más rápidas en comparación con modelos base de tamaño similar. La página del proyecto se puede encontrar en https://resgen-genai.github.io
English
We explore the use of Residual Vector Quantization (RVQ) for high-fidelity
generation in vector-quantized generative models. This quantization technique
maintains higher data fidelity by employing more in-depth tokens. However,
increasing the token number in generative models leads to slower inference
speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete
diffusion model that generates high-fidelity samples without compromising
sampling speed. Our key idea is a direct prediction of vector embedding of
collective tokens rather than individual ones. Moreover, we demonstrate that
our proposed token masking and multi-token prediction method can be formulated
within a principled probabilistic framework using a discrete diffusion process
and variational inference. We validate the efficacy and generalizability of the
proposed method on two challenging tasks across different modalities:
conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech
synthesis. Experimental results demonstrate that ResGen outperforms
autoregressive counterparts in both tasks, delivering superior performance
without compromising sampling speed. Furthermore, as we scale the depth of RVQ,
our generative models exhibit enhanced generation fidelity or faster sampling
speeds compared to similarly sized baseline models. The project page can be
found at https://resgen-genai.github.ioSummary
AI-Generated Summary