Fluido: Dimensionando Modelos Generativos Autoregressivos de Texto-para-Imagem com Tokens Contínuos
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
October 17, 2024
Autores: Lijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian
cs.AI
Resumo
Aumentar o escopo de modelos autoregressivos em visão não se mostrou tão benéfico quanto em
grandes modelos de linguagem. Neste trabalho, investigamos esse problema de escalabilidade no
contexto da geração de texto para imagem, focando em dois fatores críticos: se
os modelos usam tokens discretos ou contínuos e se os tokens são gerados em uma
ordem de grade aleatória ou fixa usando arquiteturas de transformadores semelhantes ao BERT ou GPT.
Nossos resultados empíricos mostram que, embora todos os modelos aumentem efetivamente em termos de
perda de validação, seu desempenho de avaliação - medido por FID, pontuação GenEval
e qualidade visual - segue tendências diferentes. Modelos baseados em
tokens contínuos alcançam qualidade visual significativamente melhor do que aqueles que usam
tokens discretos. Além disso, a ordem de geração e os mecanismos de atenção
afetam significativamente a pontuação GenEval: modelos de ordem aleatória alcançam
pontuações GenEval consideravelmente melhores em comparação com modelos de ordem de grade. Inspirados por esses
achados, treinamos o Fluid, um modelo autoregressivo de ordem aleatória em tokens contínuos.
O modelo Fluid 10.5B alcança um novo estado da arte de FID de zero-shot de 6.16
no MS-COCO 30K e uma pontuação geral de 0.69 no benchmark GenEval. Esperamos que nossos
achados e resultados incentivem esforços futuros para diminuir ainda mais a lacuna de escalabilidade entre modelos de visão e linguagem.
English
Scaling up autoregressive models in vision has not proven as beneficial as in
large language models. In this work, we investigate this scaling problem in the
context of text-to-image generation, focusing on two critical factors: whether
models use discrete or continuous tokens, and whether tokens are generated in a
random or fixed raster order using BERT- or GPT-like transformer architectures.
Our empirical results show that, while all models scale effectively in terms of
validation loss, their evaluation performance -- measured by FID, GenEval
score, and visual quality -- follows different trends. Models based on
continuous tokens achieve significantly better visual quality than those using
discrete tokens. Furthermore, the generation order and attention mechanisms
significantly affect the GenEval score: random-order models achieve notably
better GenEval scores compared to raster-order models. Inspired by these
findings, we train Fluid, a random-order autoregressive model on continuous
tokens. Fluid 10.5B model achieves a new state-of-the-art zero-shot FID of 6.16
on MS-COCO 30K, and 0.69 overall score on the GenEval benchmark. We hope our
findings and results will encourage future efforts to further bridge the
scaling gap between vision and language models.Summary
AI-Generated Summary