STAR: Ruimtelijk-Temporale Augmentatie met Tekst-naar-Video Modellen voor Superresolutie van Video's in de Echte Wereld
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
Auteurs: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
Samenvatting
Beeldverspreidingsmodellen zijn aangepast voor video-superresolutie in de echte wereld om overmatig vervagen aan te pakken in op GAN gebaseerde methoden. Deze modellen hebben echter moeite om temporele consistentie te behouden, omdat ze zijn getraind op statische beelden, waardoor hun vermogen om temporele dynamiek effectief vast te leggen beperkt is. Het integreren van tekst-naar-video (T2V) modellen in video-superresolutie voor verbeterde temporele modellering is eenvoudig. Er zijn echter twee belangrijke uitdagingen: artefacten geïntroduceerd door complexe degradaties in echte scenario's, en aangetaste geloofwaardigheid als gevolg van de sterke generatieve capaciteit van krachtige T2V modellen (bijv. CogVideoX-5B). Om de ruimtelijk-temporele kwaliteit van herstelde video's te verbeteren, introduceren we \name (Ruimtelijk-Temporele Augmentatie met T2V modellen voor Video-superresolutie in de echte wereld), een nieuw benadering die T2V modellen benut voor video-superresolutie in de echte wereld, waarbij realistische ruimtelijke details en robuuste temporele consistentie worden bereikt. Specifiek introduceren we een Module voor Lokale Informatieverbetering (LIEM) vóór het globale aandachtsblok om lokale details te verrijken en degradatie-artefacten te verminderen. Bovendien stellen we een Dynamisch Frequentie (DF) Verlies voor om de geloofwaardigheid te versterken, waarbij het model wordt geleid om zich te richten op verschillende frequentiecomponenten over verspreidingsstappen. Uitgebreide experimenten tonen aan dat \name beter presteert dan state-of-the-art methoden op zowel synthetische als echte datasets.
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary