GIVT: Generatieve Transformers met Oneindige Woordenschat
GIVT: Generative Infinite-Vocabulary Transformers
December 4, 2023
Auteurs: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI
Samenvatting
We introduceren generatieve transformatoren met een oneindig vocabulaire (GIVT) die
vectorreeksen met reële waarden genereren, in plaats van discrete tokens
uit een eindig vocabulaire. Hiertoe stellen we twee verrassend eenvoudige
aanpassingen voor aan decoder-only transformatoren: 1) aan de invoer vervangen we de
lookup-tabel voor het eindige vocabulaire door een lineaire projectie van de invoervectoren;
en 2) aan de uitvoer vervangen we de voorspelling van logits (meestal gemapt naar een
categorische verdeling) door de parameters van een multivariate Gaussische
mengselmodel. Geïnspireerd door het beeldgeneratieparadigma van VQ-GAN en MaskGIT,
waarbij transformatoren worden gebruikt om de discrete latente reeksen van een VQ-VAE te modelleren,
gebruiken we GIVT om de ongekwantiseerde reële latente reeksen van een VAE te modelleren.
Bij het toepassen van GIVT op klasse-conditionele beeldgeneratie met iteratieve gemaskeerde
modellering, laten we competitieve resultaten zien met MaskGIT, terwijl onze aanpak
zowel VQ-GAN als MaskGIT overtreft wanneer we deze gebruiken voor causaal modelleren. Tot slot
behalen we competitieve resultaten buiten beeldgeneratie bij het toepassen van onze
aanpak op panoptische segmentatie en diepteschatting met een VAE-gebaseerde variant
van het UViM-framework.
English
We introduce generative infinite-vocabulary transformers (GIVT) which
generate vector sequences with real-valued entries, instead of discrete tokens
from a finite vocabulary. To this end, we propose two surprisingly simple
modifications to decoder-only transformers: 1) at the input, we replace the
finite-vocabulary lookup table with a linear projection of the input vectors;
and 2) at the output, we replace the logits prediction (usually mapped to a
categorical distribution) with the parameters of a multivariate Gaussian
mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT,
where transformers are used to model the discrete latent sequences of a VQ-VAE,
we use GIVT to model the unquantized real-valued latent sequences of a VAE.
When applying GIVT to class-conditional image generation with iterative masked
modeling, we show competitive results with MaskGIT, while our approach
outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally,
we obtain competitive results outside of image generation when applying our
approach to panoptic segmentation and depth estimation with a VAE-based variant
of the UViM framework.