Эффективное генеративное моделирование на основе токенов с квантованием векторов с остатками
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
December 13, 2024
Авторы: Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
cs.AI
Аннотация
Мы исследуем применение остаточного векторного квантования (RVQ) для создания высококачественных данных в векторно-квантовых генеративных моделях. Эта техника квантования обеспечивает более высокую достоверность данных за счет использования более глубоких токенов. Однако увеличение количества токенов в генеративных моделях приводит к замедлению скорости вывода. В этой связи мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокого качества без ущерба скорости выборки. Наш ключевой идеей является прямое предсказание векторного вложения коллективных токенов, а не индивидуальных. Более того, мы демонстрируем, что наш метод маскирования токенов и множественного предсказания токенов может быть сформулирован в рамках принципиального вероятностного подхода с использованием дискретного процесса диффузии и вариационного вывода. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах различных модальностей: условная генерация изображений на ImageNet 256x256 и синтез речи по тексту без обучения. Экспериментальные результаты показывают, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходное качество работы без ущерба скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют улучшенную достоверность генерации или более быстрые скорости выборки по сравнению с моделями базового уровня того же размера. Страницу проекта можно найти по адресу https://resgen-genai.github.io
English
We explore the use of Residual Vector Quantization (RVQ) for high-fidelity
generation in vector-quantized generative models. This quantization technique
maintains higher data fidelity by employing more in-depth tokens. However,
increasing the token number in generative models leads to slower inference
speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete
diffusion model that generates high-fidelity samples without compromising
sampling speed. Our key idea is a direct prediction of vector embedding of
collective tokens rather than individual ones. Moreover, we demonstrate that
our proposed token masking and multi-token prediction method can be formulated
within a principled probabilistic framework using a discrete diffusion process
and variational inference. We validate the efficacy and generalizability of the
proposed method on two challenging tasks across different modalities:
conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech
synthesis. Experimental results demonstrate that ResGen outperforms
autoregressive counterparts in both tasks, delivering superior performance
without compromising sampling speed. Furthermore, as we scale the depth of RVQ,
our generative models exhibit enhanced generation fidelity or faster sampling
speeds compared to similarly sized baseline models. The project page can be
found at https://resgen-genai.github.ioSummary
AI-Generated Summary