GIVT: Генеративные трансформеры с бесконечным словарём
GIVT: Generative Infinite-Vocabulary Transformers
December 4, 2023
Авторы: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI
Аннотация
Мы представляем генеративные трансформеры с бесконечным словарём (GIVT), которые генерируют последовательности векторов с вещественными значениями вместо дискретных токенов из конечного словаря. Для этого мы предлагаем два удивительно простых изменения в архитектуре декодер-трансформеров: 1) на входе заменяем таблицу поиска для конечного словаря на линейную проекцию входных векторов; и 2) на выходе заменяем предсказание логитов (обычно преобразуемых в категориальное распределение) на параметры многомерной гауссовой смеси. Вдохновлённые парадигмой генерации изображений VQ-GAN и MaskGIT, где трансформеры используются для моделирования дискретных латентных последовательностей VQ-VAE, мы применяем GIVT для моделирования недискретизированных вещественных латентных последовательностей VAE. При использовании GIVT для условной генерации изображений с итеративным маскированным моделированием мы демонстрируем результаты, сопоставимые с MaskGIT, в то время как наш подход превосходит как VQ-GAN, так и MaskGIT при применении для причинного моделирования. Наконец, мы получаем конкурентоспособные результаты за пределами генерации изображений, применяя наш подход к панорамной сегментации и оценке глубины с использованием VAE-варианта фреймворка UViM.
English
We introduce generative infinite-vocabulary transformers (GIVT) which
generate vector sequences with real-valued entries, instead of discrete tokens
from a finite vocabulary. To this end, we propose two surprisingly simple
modifications to decoder-only transformers: 1) at the input, we replace the
finite-vocabulary lookup table with a linear projection of the input vectors;
and 2) at the output, we replace the logits prediction (usually mapped to a
categorical distribution) with the parameters of a multivariate Gaussian
mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT,
where transformers are used to model the discrete latent sequences of a VQ-VAE,
we use GIVT to model the unquantized real-valued latent sequences of a VAE.
When applying GIVT to class-conditional image generation with iterative masked
modeling, we show competitive results with MaskGIT, while our approach
outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally,
we obtain competitive results outside of image generation when applying our
approach to panoptic segmentation and depth estimation with a VAE-based variant
of the UViM framework.