Le ModĂšle Autoregressif Surpasse la Diffusion : Llama pour la GĂ©nĂ©ration d'Images Ă Grande ĂchelleAutoregressive Model Beats Diffusion: Llama for Scalable Image
Generation
Nous présentons LlamaGen, une nouvelle famille de modÚles de génération d'images qui applique le paradigme original de « prédiction du token suivant » des grands modÚles de langage au domaine de la génération visuelle. Il s'agit d'une réponse affirmative à la question de savoir si des modÚles autorégressifs classiques, comme Llama, sans biais inductifs sur les signaux visuels, peuvent atteindre des performances de pointe en génération d'images s'ils sont correctement mis à l'échelle. Nous réexaminons les espaces de conception des tokenizers d'images, les propriétés de scalabilité des modÚles de génération d'images, ainsi que la qualité de leurs données d'entraßnement. Les résultats de cette exploration incluent : (1) Un tokenizer d'images avec un ratio de sous-échantillonnage de 16, une qualité de reconstruction de 0,94 rFID et une utilisation du codebook de 97 % sur le benchmark ImageNet. (2) Une série de modÚles de génération d'images conditionnés par classe, allant de 111M à 3,1B de paramÚtres, atteignant un FID de 2,18 sur les benchmarks ImageNet 256x256, surpassant les modÚles de diffusion populaires tels que LDM et DiT. (3) Un modÚle de génération d'images conditionné par texte avec 775M de paramÚtres, issu d'un entraßnement en deux étapes sur LAION-COCO et des images de haute qualité esthétique, démontrant des performances compétitives en termes de qualité visuelle et d'alignement textuel. (4) Nous vérifions l'efficacité des frameworks de service LLM pour optimiser la vitesse d'inférence des modÚles de génération d'images et obtenons une accélération de 326 % à 414 %. Nous publions tous les modÚles et codes pour faciliter la communauté open-source de la génération visuelle et des modÚles fondation multimodaux.