STAR:利用文本到视频模型进行空间-时间增强的真实世界视频超分辨率STAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
图像扩散模型已经被调整用于实际视频超分辨率,以解决基于GAN方法的过度平滑问题。然而,这些模型在保持时间一致性方面存在困难,因为它们是在静态图像上训练的,限制了其有效捕捉时间动态的能力。将文本到视频(T2V)模型整合到视频超分辨率中以改善时间建模是直接的。然而,仍然存在两个关键挑战:在实际场景中引入的复杂退化引入的伪影,以及由于强大的T2V模型(例如CogVideoX-5B)的强大生成能力而导致的保真度受损。为了增强恢复视频的时空质量,我们介绍了\name(用于实际视频超分辨率的T2V模型的时空增强),这是一种利用T2V模型进行实际视频超分辨率的新方法,实现了逼真的空间细节和稳健的时间一致性。具体而言,我们在全局注意力块之前引入了局部信息增强模块(LIEM),以丰富局部细节并减轻退化伪影。此外,我们提出了动态频率(DF)损失来加强保真度,引导模型在扩散步骤中专注于不同频率成分。大量实验证明\name 在合成和实际数据集上均优于最先进的方法。