每日精选AI研究论文及翻译
扩散模型在超越其训练分辨率时面临挑战,因为直接进行高分辨率采样既缓慢又成本高昂,而事后图像超分辨率(ISR)技术则在解码后操作,不仅引入了伪影,还增加了额外的延迟。我们提出了潜在上采样适配器(LUA),这是一种轻量级模块,能够在最终VAE解码步骤之前直接在生成器的潜在代码上执行超分辨率。LUA作为一个即插即用组件集成,无需对基础模型进行修改或增加额外的扩散阶段,并通过潜在空间中的单次前向传递实现高分辨率合成。一个共享的Swin风格骨干网络,配合特定尺度的像素重组头,支持2倍和4倍的上采样因子,并与图像空间超分辨率基线保持兼容,在解码和上采样时间上实现了近3倍的降低(从512像素生成1024像素仅增加+0.42秒,而使用相同SwinIR架构的像素空间超分辨率则需要1.87秒)。此外,LUA在不同VAE的潜在空间中展现出强大的泛化能力,使其无需为每个新解码器从头训练即可轻松部署。大量实验证明,LUA在保持与原生高分辨率生成相当保真度的同时,为现代扩散管道中的可扩展、高保真图像合成提供了一条实用且高效的路径。