Efficiënte generatieve modellering met tokens gebaseerd op restvectorquantisatie
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
December 13, 2024
Auteurs: Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
cs.AI
Samenvatting
We onderzoeken het gebruik van Residual Vector Quantization (RVQ) voor hoogwaardige generatie in vectorgekwantificeerde generatieve modellen. Deze kwantiseringstechniek behoudt een hogere gegevensgetrouwheid door gebruik te maken van meer diepgaande tokens. Het verhogen van het aantal tokens in generatieve modellen leidt echter tot langzamere inferentiesnelheden. Daarom introduceren we ResGen, een efficiënt RVQ-gebaseerd discreet diffusiemodel dat hoogwaardige monsters genereert zonder de bemonsteringssnelheid in gevaar te brengen. Ons belangrijkste idee is een directe voorspelling van de vector-embedding van collectieve tokens in plaats van individuele. Bovendien tonen we aan dat onze voorgestelde tokenmaskering en multi-token voorspellingsmethode kunnen worden geformuleerd binnen een principieel probabilistisch kader met behulp van een discreet diffusieproces en variational inference. We valideren de doeltreffendheid en generaliseerbaarheid van de voorgestelde methode op twee uitdagende taken over verschillende modaliteiten: conditionele beeldgeneratie op ImageNet 256x256 en zero-shot tekst-naar-spraak synthese. Experimentele resultaten tonen aan dat ResGen beter presteert dan autoregressieve tegenhangers in beide taken, met superieure prestaties zonder de bemonsteringssnelheid in gevaar te brengen. Bovendien vertonen onze generatieve modellen, naarmate we de diepte van RVQ vergroten, verbeterde generatietrouw of snellere bemonsteringssnelheden in vergelijking met even grote basismodellen. De projectpagina is te vinden op https://resgen-genai.github.io
English
We explore the use of Residual Vector Quantization (RVQ) for high-fidelity
generation in vector-quantized generative models. This quantization technique
maintains higher data fidelity by employing more in-depth tokens. However,
increasing the token number in generative models leads to slower inference
speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete
diffusion model that generates high-fidelity samples without compromising
sampling speed. Our key idea is a direct prediction of vector embedding of
collective tokens rather than individual ones. Moreover, we demonstrate that
our proposed token masking and multi-token prediction method can be formulated
within a principled probabilistic framework using a discrete diffusion process
and variational inference. We validate the efficacy and generalizability of the
proposed method on two challenging tasks across different modalities:
conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech
synthesis. Experimental results demonstrate that ResGen outperforms
autoregressive counterparts in both tasks, delivering superior performance
without compromising sampling speed. Furthermore, as we scale the depth of RVQ,
our generative models exhibit enhanced generation fidelity or faster sampling
speeds compared to similarly sized baseline models. The project page can be
found at https://resgen-genai.github.io