GIVT: Transformadores Generativos de Vocabulário Infinito
GIVT: Generative Infinite-Vocabulary Transformers
December 4, 2023
Autores: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI
Resumo
Apresentamos os transformadores generativos de vocabulário infinito (GIVT), que geram sequências de vetores com entradas de valor real, em vez de tokens discretos de um vocabulário finito. Para isso, propomos duas modificações surpreendentemente simples aos transformadores de apenas decodificação: 1) na entrada, substituímos a tabela de consulta de vocabulário finito por uma projeção linear dos vetores de entrada; e 2) na saída, substituímos a previsão de logits (geralmente mapeada para uma distribuição categórica) pelos parâmetros de um modelo de mistura gaussiana multivariada. Inspirados pelo paradigma de geração de imagens do VQ-GAN e MaskGIT, onde transformadores são usados para modelar as sequências latentes discretas de um VQ-VAE, utilizamos o GIVT para modelar as sequências latentes de valor real não quantizadas de um VAE. Ao aplicar o GIVT à geração de imagens condicionadas por classe com modelagem mascarada iterativa, mostramos resultados competitivos com o MaskGIT, enquanto nossa abordagem supera tanto o VQ-GAN quanto o MaskGIT quando usada para modelagem causal. Por fim, obtemos resultados competitivos fora do domínio de geração de imagens ao aplicar nossa abordagem à segmentação panóptica e estimativa de profundidade com uma variante baseada em VAE do framework UViM.
English
We introduce generative infinite-vocabulary transformers (GIVT) which
generate vector sequences with real-valued entries, instead of discrete tokens
from a finite vocabulary. To this end, we propose two surprisingly simple
modifications to decoder-only transformers: 1) at the input, we replace the
finite-vocabulary lookup table with a linear projection of the input vectors;
and 2) at the output, we replace the logits prediction (usually mapped to a
categorical distribution) with the parameters of a multivariate Gaussian
mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT,
where transformers are used to model the discrete latent sequences of a VQ-VAE,
we use GIVT to model the unquantized real-valued latent sequences of a VAE.
When applying GIVT to class-conditional image generation with iterative masked
modeling, we show competitive results with MaskGIT, while our approach
outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally,
we obtain competitive results outside of image generation when applying our
approach to panoptic segmentation and depth estimation with a VAE-based variant
of the UViM framework.