自回归模型胜过扩散:Llama 用于可扩展图像生成Autoregressive Model Beats Diffusion: Llama for Scalable Image
Generation
我们介绍了LlamaGen,这是一系列新的图像生成模型,将大型语言模型的原始“下一个标记预测”范式应用于视觉生成领域。这是对于普通自回归模型(例如Llama)在视觉信号上没有归纳偏差的情况下,如果适当扩展,是否可以实现最先进的图像生成性能的肯定回答。我们重新审视了图像分词器的设计空间、图像生成模型的可扩展性特性以及它们的训练数据质量。这一探索的结果包括:(1)一个图像分词器,下采样比率为16,重建质量为0.94 rFID,在ImageNet基准测试中的码书使用率为97%。 (2)一系列类别条件的图像生成模型,参数范围从1.11亿到31亿,在ImageNet 256x256基准测试中实现2.18 FID,优于流行的扩散模型,如LDM、DiT。 (3)一个文本条件的图像生成模型,参数为7.75亿,经过在LAION-COCO和高审美质量图像上的两阶段训练,展示了在视觉质量和文本对齐方面的竞争性表现。 (4)我们验证了LLM服务框架在优化图像生成模型推断速度方面的有效性,并实现了326%至414%的加速。我们发布所有模型和代码,以促进视觉生成和多模态基础模型的开源社区。