GIVT: Trasformatori Generativi a Vocabolario Infinito
GIVT: Generative Infinite-Vocabulary Transformers
December 4, 2023
Autori: Michael Tschannen, Cian Eastwood, Fabian Mentzer
cs.AI
Abstract
Introduciamo i trasformatori generativi a vocabolario infinito (GIVT) che generano sequenze di vettori con valori reali, anziché token discreti provenienti da un vocabolario finito. A tal fine, proponiamo due modifiche sorprendentemente semplici ai trasformatori di tipo decoder-only: 1) all'ingresso, sostituiamo la tabella di ricerca a vocabolario finito con una proiezione lineare dei vettori di input; e 2) all'uscita, sostituiamo la previsione dei logit (solitamente mappata a una distribuzione categorica) con i parametri di un modello di miscela gaussiana multivariato. Ispirati dal paradigma di generazione di immagini di VQ-GAN e MaskGIT, in cui i trasformatori sono utilizzati per modellare le sequenze latenti discrete di un VQ-VAE, utilizziamo GIVT per modellare le sequenze latenti a valori reali non quantizzate di un VAE. Applicando GIVT alla generazione di immagini condizionata alla classe con modellazione iterativa mascherata, mostriamo risultati competitivi rispetto a MaskGIT, mentre il nostro approccio supera sia VQ-GAN che MaskGIT quando utilizzato per la modellazione causale. Infine, otteniamo risultati competitivi al di fuori della generazione di immagini applicando il nostro approccio alla segmentazione panottica e alla stima della profondità con una variante basata su VAE del framework UViM.
English
We introduce generative infinite-vocabulary transformers (GIVT) which
generate vector sequences with real-valued entries, instead of discrete tokens
from a finite vocabulary. To this end, we propose two surprisingly simple
modifications to decoder-only transformers: 1) at the input, we replace the
finite-vocabulary lookup table with a linear projection of the input vectors;
and 2) at the output, we replace the logits prediction (usually mapped to a
categorical distribution) with the parameters of a multivariate Gaussian
mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT,
where transformers are used to model the discrete latent sequences of a VQ-VAE,
we use GIVT to model the unquantized real-valued latent sequences of a VAE.
When applying GIVT to class-conditional image generation with iterative masked
modeling, we show competitive results with MaskGIT, while our approach
outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally,
we obtain competitive results outside of image generation when applying our
approach to panoptic segmentation and depth estimation with a VAE-based variant
of the UViM framework.