Fluidità: Scaling dei Modelli Generativi Autoregressivi Testo-immagine con Token Continui
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
October 17, 2024
Autori: Lijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian
cs.AI
Abstract
L'ingrandimento dei modelli autoregressivi in visione non ha dimostrato di essere altrettanto vantaggioso come nei grandi modelli linguistici. In questo lavoro, investighiamo questo problema di scalabilità nel contesto della generazione di testo-immagine, concentrandoci su due fattori critici: se i modelli utilizzano token discreti o continui e se i token vengono generati in un ordine raster casuale o fisso utilizzando architetture trasformative simili a BERT o GPT. I nostri risultati empirici mostrano che, sebbene tutti i modelli scalino efficacemente in termini di perdita di validazione, le loro prestazioni di valutazione - misurate da FID, punteggio GenEval e qualità visiva - seguono tendenze diverse. I modelli basati su token continui raggiungono una qualità visiva significativamente migliore rispetto a quelli che utilizzano token discreti. Inoltre, l'ordine di generazione e i meccanismi di attenzione influenzano significativamente il punteggio GenEval: i modelli in ordine casuale ottengono punteggi GenEval notevolmente migliori rispetto ai modelli in ordine raster. Ispirati da questi risultati, addestriamo Fluid, un modello autoregressivo in ordine casuale su token continui. Il modello Fluid 10.5B raggiunge un nuovo stato dell'arte con un FID zero-shot di 6.16 su MS-COCO 30K e un punteggio complessivo di 0.69 sul benchmark GenEval. Speriamo che i nostri risultati incoraggino futuri sforzi per colmare ulteriormente il divario di scalabilità tra i modelli di visione e linguaggio.
English
Scaling up autoregressive models in vision has not proven as beneficial as in
large language models. In this work, we investigate this scaling problem in the
context of text-to-image generation, focusing on two critical factors: whether
models use discrete or continuous tokens, and whether tokens are generated in a
random or fixed raster order using BERT- or GPT-like transformer architectures.
Our empirical results show that, while all models scale effectively in terms of
validation loss, their evaluation performance -- measured by FID, GenEval
score, and visual quality -- follows different trends. Models based on
continuous tokens achieve significantly better visual quality than those using
discrete tokens. Furthermore, the generation order and attention mechanisms
significantly affect the GenEval score: random-order models achieve notably
better GenEval scores compared to raster-order models. Inspired by these
findings, we train Fluid, a random-order autoregressive model on continuous
tokens. Fluid 10.5B model achieves a new state-of-the-art zero-shot FID of 6.16
on MS-COCO 30K, and 0.69 overall score on the GenEval benchmark. We hope our
findings and results will encourage future efforts to further bridge the
scaling gap between vision and language models.Summary
AI-Generated Summary