GIVT: Генеративные трансформеры с бесконечным словарём

Аннотация

Мы представляем генеративные трансформеры с бесконечным словарём (GIVT), которые генерируют последовательности векторов с вещественными значениями вместо дискретных токенов из конечного словаря. Для этого мы предлагаем два удивительно простых изменения в архитектуре декодер-трансформеров: 1) на входе заменяем таблицу поиска для конечного словаря на линейную проекцию входных векторов; и 2) на выходе заменяем предсказание логитов (обычно преобразуемых в категориальное распределение) на параметры многомерной гауссовой смеси. Вдохновлённые парадигмой генерации изображений VQ-GAN и MaskGIT, где трансформеры используются для моделирования дискретных латентных последовательностей VQ-VAE, мы применяем GIVT для моделирования недискретизированных вещественных латентных последовательностей VAE. При использовании GIVT для условной генерации изображений с итеративным маскированным моделированием мы демонстрируем результаты, сопоставимые с MaskGIT, в то время как наш подход превосходит как VQ-GAN, так и MaskGIT при применении для причинного моделирования. Наконец, мы получаем конкурентоспособные результаты за пределами генерации изображений, применяя наш подход к панорамной сегментации и оценке глубины с использованием VAE-варианта фреймворка UViM.

English

We introduce generative infinite-vocabulary transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a VAE. When applying GIVT to class-conditional image generation with iterative masked modeling, we show competitive results with MaskGIT, while our approach outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally, we obtain competitive results outside of image generation when applying our approach to panoptic segmentation and depth estimation with a VAE-based variant of the UViM framework.

GIVT: Генеративные трансформеры с бесконечным словарём

GIVT: Generative Infinite-Vocabulary Transformers

Аннотация

Support