ChatPaper.aiChatPaper

STAR: Raum-Zeit-Augmentierung mit Text-zu-Video-Modellen für die Superauflösung von Echtzeitvideos.

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

January 6, 2025
Autoren: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI

Zusammenfassung

Bildverbreitungsmodelle wurden für die Video-Superauflösung in der realen Welt angepasst, um Überglättungsprobleme in GAN-basierten Methoden zu bewältigen. Diese Modelle haben jedoch Schwierigkeiten, die zeitliche Konsistenz aufrechtzuerhalten, da sie auf statischen Bildern trainiert sind, was ihre Fähigkeit, zeitliche Dynamiken effektiv zu erfassen, einschränkt. Die Integration von Text-zu-Video (T2V)-Modellen in die Video-Superauflösung zur Verbesserung der zeitlichen Modellierung ist unkompliziert. Es bleiben jedoch zwei Hauptprobleme bestehen: Artefakte, die durch komplexe Degradierungen in realen Szenarien eingeführt werden, und beeinträchtigte Treue aufgrund der starken generativen Kapazität leistungsstarker T2V-Modelle (z. B. CogVideoX-5B). Um die räumlich-zeitliche Qualität wiederhergestellter Videos zu verbessern, stellen wir \name vor (Räumlich-zeitliche Augmentierung mit T2V-Modellen für die Video-Superauflösung in der realen Welt), einen neuartigen Ansatz, der T2V-Modelle für die Video-Superauflösung in der realen Welt nutzt und realistische räumliche Details und robuste zeitliche Konsistenz erreicht. Speziell führen wir ein Lokales Informationsverbesserungsmodul (LIEM) vor dem globalen Aufmerksamkeitsblock ein, um lokale Details anzureichern und Degradierungsartefakte zu mildern. Darüber hinaus schlagen wir einen Dynamischen Frequenz (DF)-Verlust vor, um die Treue zu verstärken und das Modell zu leiten, sich auf verschiedene Frequenzkomponenten über die Diffusionsschritte zu konzentrieren. Umfangreiche Experimente zeigen, dass \name sowohl auf synthetischen als auch auf realen Datensätzen die Methoden auf dem neuesten Stand der Technik übertrifft.
English
Image diffusion models have been adapted for real-world video super-resolution to tackle over-smoothing issues in GAN-based methods. However, these models struggle to maintain temporal consistency, as they are trained on static images, limiting their ability to capture temporal dynamics effectively. Integrating text-to-video (T2V) models into video super-resolution for improved temporal modeling is straightforward. However, two key challenges remain: artifacts introduced by complex degradations in real-world scenarios, and compromised fidelity due to the strong generative capacity of powerful T2V models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of restored videos, we introduce~\name (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution), a novel approach that leverages T2V models for real-world video super-resolution, achieving realistic spatial details and robust temporal consistency. Specifically, we introduce a Local Information Enhancement Module (LIEM) before the global attention block to enrich local details and mitigate degradation artifacts. Moreover, we propose a Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus on different frequency components across diffusion steps. Extensive experiments demonstrate~\name~outperforms state-of-the-art methods on both synthetic and real-world datasets.

Summary

AI-Generated Summary

PDF563January 7, 2025