GIVT: Transformadores Generativos de Vocabulario Infinito
GIVT: Generative Infinite-Vocabulary Transformers
December 4, 2023
Autores: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI
Resumen
Presentamos los transformadores generativos de vocabulario infinito (GIVT, por sus siglas en inglés), los cuales generan secuencias de vectores con entradas de valores reales, en lugar de tokens discretos de un vocabulario finito. Para ello, proponemos dos modificaciones sorprendentemente simples a los transformadores de solo decodificación: 1) en la entrada, reemplazamos la tabla de búsqueda de vocabulario finito con una proyección lineal de los vectores de entrada; y 2) en la salida, sustituimos la predicción de logits (que normalmente se mapea a una distribución categórica) con los parámetros de un modelo de mezcla gaussiana multivariado. Inspirados por el paradigma de generación de imágenes de VQ-GAN y MaskGIT, donde los transformadores se utilizan para modelar secuencias latentes discretas de un VQ-VAE, empleamos GIVT para modelar secuencias latentes de valores reales no cuantizadas de un VAE. Al aplicar GIVT a la generación de imágenes condicionadas por clase con modelado enmascarado iterativo, mostramos resultados competitivos con MaskGIT, mientras que nuestro enfoque supera tanto a VQ-GAN como a MaskGIT cuando se utiliza para modelado causal. Finalmente, obtenemos resultados competitivos fuera del ámbito de la generación de imágenes al aplicar nuestro enfoque a la segmentación panóptica y la estimación de profundidad con una variante basada en VAE del marco UViM.
English
We introduce generative infinite-vocabulary transformers (GIVT) which
generate vector sequences with real-valued entries, instead of discrete tokens
from a finite vocabulary. To this end, we propose two surprisingly simple
modifications to decoder-only transformers: 1) at the input, we replace the
finite-vocabulary lookup table with a linear projection of the input vectors;
and 2) at the output, we replace the logits prediction (usually mapped to a
categorical distribution) with the parameters of a multivariate Gaussian
mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT,
where transformers are used to model the discrete latent sequences of a VQ-VAE,
we use GIVT to model the unquantized real-valued latent sequences of a VAE.
When applying GIVT to class-conditional image generation with iterative masked
modeling, we show competitive results with MaskGIT, while our approach
outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally,
we obtain competitive results outside of image generation when applying our
approach to panoptic segmentation and depth estimation with a VAE-based variant
of the UViM framework.