ByMoo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
本文介绍了通过整合新型多分辨率网络和时间相关层归一化对扩散模型进行创新增强。扩散模型因其在高保真图像生成中的有效性而备受关注。虽然传统方法依赖于卷积U-Net架构,但最近基于Transformer的设计表现出更优越的性能和可扩展性。然而,Transformer架构通过“patchification”对输入数据进行标记化,面临着在处理标记长度时自注意力操作的二次复杂性导致视觉保真度和计算复杂度之间的权衡。较大的patch尺寸可以提高注意力计算效率,但难以捕捉细粒度的视觉细节,导致图像失真。为解决这一挑战,我们提出了将多分辨率网络(DiMR)与扩散模型相结合,该框架跨多个分辨率细化特征,逐渐增强从低到高分辨率的细节。此外,我们引入了时间相关层归一化(TD-LN),这是一种参数高效的方法,将时间相关参数纳入层归一化中,注入时间信息以实现更优越的性能。我们的方法在类别条件的ImageNet生成基准上展示了其有效性,其中DiMR-XL变体胜过先前的扩散模型,在ImageNet 256 x 256上取得了1.70的新的FID分数,在ImageNet 512 x 512上取得了2.89的新的FID分数。项目页面:https://qihao067.github.io/projects/DiMR