ChatPaper.aiChatPaper

GIVT : Transformers Génératifs à Vocabulaire Infini

GIVT: Generative Infinite-Vocabulary Transformers

December 4, 2023
Auteurs: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI

Résumé

Nous présentons les transformateurs génératifs à vocabulaire infini (GIVT), qui génèrent des séquences de vecteurs à valeurs réelles, plutôt que des tokens discrets issus d'un vocabulaire fini. Pour ce faire, nous proposons deux modifications étonnamment simples aux transformateurs de type décodeur uniquement : 1) en entrée, nous remplaçons la table de correspondance à vocabulaire fini par une projection linéaire des vecteurs d'entrée ; et 2) en sortie, nous remplaçons la prédiction des logits (généralement mappée à une distribution catégorielle) par les paramètres d'un modèle de mélange gaussien multivarié. Inspirés par le paradigme de génération d'images de VQ-GAN et MaskGIT, où les transformateurs sont utilisés pour modéliser les séquences latentes discrètes d'un VQ-VAE, nous utilisons GIVT pour modéliser les séquences latentes à valeurs réelles non quantifiées d'un VAE. Lorsque nous appliquons GIVT à la génération d'images conditionnée par classe avec modélisation masquée itérative, nous obtenons des résultats compétitifs par rapport à MaskGIT, tandis que notre approche surpasse à la fois VQ-GAN et MaskGIT dans le cadre de la modélisation causale. Enfin, nous obtenons des résultats compétitifs en dehors de la génération d'images en appliquant notre approche à la segmentation panoptique et à l'estimation de profondeur avec une variante basée sur VAE du cadre UViM.
English
We introduce generative infinite-vocabulary transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a VAE. When applying GIVT to class-conditional image generation with iterative masked modeling, we show competitive results with MaskGIT, while our approach outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally, we obtain competitive results outside of image generation when applying our approach to panoptic segmentation and depth estimation with a VAE-based variant of the UViM framework.
PDF131December 15, 2024