STAR : Augmentation Spatio-Temporelle avec des Modèles Texte-Vidéo pour la Super-Résolution Vidéo en Temps Réel
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
Auteurs: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
Résumé
Les modèles de diffusion d'images ont été adaptés pour la super-résolution vidéo en monde réel afin de résoudre les problèmes de lissage excessif rencontrés dans les méthodes basées sur les GAN. Cependant, ces modèles ont du mal à maintenir une cohérence temporelle, car ils sont entraînés sur des images statiques, ce qui limite leur capacité à capturer efficacement les dynamiques temporelles. L'intégration de modèles texte-vidéo (T2V) dans la super-résolution vidéo pour une modélisation temporelle améliorée est simple. Cependant, deux défis clés subsistent : les artefacts introduits par des dégradations complexes dans des scénarios du monde réel, et la compromission de la fidélité en raison de la forte capacité générative des puissants modèles T2V (par exemple, CogVideoX-5B). Pour améliorer la qualité spatio-temporelle des vidéos restaurées, nous présentons \name (Augmentation Spatio-Temporelle avec des modèles T2V pour la super-résolution vidéo en monde réel), une approche novatrice qui exploite les modèles T2V pour la super-résolution vidéo en monde réel, permettant d'obtenir des détails spatiaux réalistes et une cohérence temporelle robuste. Plus précisément, nous introduisons un Module d'Amélioration de l'Information Locale (LIEM) avant le bloc d'attention global pour enrichir les détails locaux et atténuer les artefacts de dégradation. De plus, nous proposons une Perte de Fréquence Dynamique (DF) pour renforcer la fidélité, guidant le modèle pour se concentrer sur différentes composantes de fréquence à travers les étapes de diffusion. Des expériences approfondies démontrent que \name surpasse les méthodes de pointe sur des ensembles de données synthétiques et du monde réel.
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary