GIVT: Generative Transformatoren mit unendlichem Vokabular
GIVT: Generative Infinite-Vocabulary Transformers
December 4, 2023
Autoren: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI
Zusammenfassung
Wir stellen generative Transformer mit unendlichem Vokabular (GIVT) vor, die Vektorsequenzen mit reellwertigen Einträgen erzeugen, anstatt diskrete Tokens aus einem endlichen Vokabular. Dazu schlagen wir zwei überraschend einfache Modifikationen an Decoder-only-Transformer vor: 1) am Eingang ersetzen wir die Lookup-Tabelle für das endliche Vokabular durch eine lineare Projektion der Eingangsvektoren; und 2) am Ausgang ersetzen wir die Logits-Vorhersage (die üblicherweise auf eine kategorische Verteilung abgebildet wird) durch die Parameter eines multivariaten Gaußschen Mischmodells. Inspiriert durch das Bildgenerierungsparadigma von VQ-GAN und MaskGIT, bei dem Transformer verwendet werden, um die diskreten latenten Sequenzen eines VQ-VAE zu modellieren, nutzen wir GIVT, um die nicht quantisierten reellwertigen latenten Sequenzen eines VAE zu modellieren. Bei der Anwendung von GIVT auf die klassenbedingte Bildgenerierung mit iterativem Masked Modeling zeigen wir wettbewerbsfähige Ergebnisse im Vergleich zu MaskGIT, während unser Ansatz sowohl VQ-GAN als auch MaskGIT bei der Anwendung für kausale Modellierung übertrifft. Schließlich erzielen wir wettbewerbsfähige Ergebnisse außerhalb der Bildgenerierung, wenn wir unseren Ansatz auf panoptische Segmentierung und Tiefenschätzung mit einer VAE-basierten Variante des UViM-Frameworks anwenden.
English
We introduce generative infinite-vocabulary transformers (GIVT) which
generate vector sequences with real-valued entries, instead of discrete tokens
from a finite vocabulary. To this end, we propose two surprisingly simple
modifications to decoder-only transformers: 1) at the input, we replace the
finite-vocabulary lookup table with a linear projection of the input vectors;
and 2) at the output, we replace the logits prediction (usually mapped to a
categorical distribution) with the parameters of a multivariate Gaussian
mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT,
where transformers are used to model the discrete latent sequences of a VQ-VAE,
we use GIVT to model the unquantized real-valued latent sequences of a VAE.
When applying GIVT to class-conditional image generation with iterative masked
modeling, we show competitive results with MaskGIT, while our approach
outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally,
we obtain competitive results outside of image generation when applying our
approach to panoptic segmentation and depth estimation with a VAE-based variant
of the UViM framework.