ChatPaper.aiChatPaper

STAR: Ruimtelijk-Temporale Augmentatie met Tekst-naar-Video Modellen voor Superresolutie van Video's in de Echte Wereld

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

January 6, 2025
Auteurs: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI

Samenvatting

Beeldverspreidingsmodellen zijn aangepast voor video-superresolutie in de echte wereld om overmatig vervagen aan te pakken in op GAN gebaseerde methoden. Deze modellen hebben echter moeite om temporele consistentie te behouden, omdat ze zijn getraind op statische beelden, waardoor hun vermogen om temporele dynamiek effectief vast te leggen beperkt is. Het integreren van tekst-naar-video (T2V) modellen in video-superresolutie voor verbeterde temporele modellering is eenvoudig. Er zijn echter twee belangrijke uitdagingen: artefacten geïntroduceerd door complexe degradaties in echte scenario's, en aangetaste geloofwaardigheid als gevolg van de sterke generatieve capaciteit van krachtige T2V modellen (bijv. CogVideoX-5B). Om de ruimtelijk-temporele kwaliteit van herstelde video's te verbeteren, introduceren we \name (Ruimtelijk-Temporele Augmentatie met T2V modellen voor Video-superresolutie in de echte wereld), een nieuw benadering die T2V modellen benut voor video-superresolutie in de echte wereld, waarbij realistische ruimtelijke details en robuuste temporele consistentie worden bereikt. Specifiek introduceren we een Module voor Lokale Informatieverbetering (LIEM) vóór het globale aandachtsblok om lokale details te verrijken en degradatie-artefacten te verminderen. Bovendien stellen we een Dynamisch Frequentie (DF) Verlies voor om de geloofwaardigheid te versterken, waarbij het model wordt geleid om zich te richten op verschillende frequentiecomponenten over verspreidingsstappen. Uitgebreide experimenten tonen aan dat \name beter presteert dan state-of-the-art methoden op zowel synthetische als echte datasets.
English
Image diffusion models have been adapted for real-world video super-resolution to tackle over-smoothing issues in GAN-based methods. However, these models struggle to maintain temporal consistency, as they are trained on static images, limiting their ability to capture temporal dynamics effectively. Integrating text-to-video (T2V) models into video super-resolution for improved temporal modeling is straightforward. However, two key challenges remain: artifacts introduced by complex degradations in real-world scenarios, and compromised fidelity due to the strong generative capacity of powerful T2V models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of restored videos, we introduce~\name (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution), a novel approach that leverages T2V models for real-world video super-resolution, achieving realistic spatial details and robust temporal consistency. Specifically, we introduce a Local Information Enhancement Module (LIEM) before the global attention block to enrich local details and mitigate degradation artifacts. Moreover, we propose a Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus on different frequency components across diffusion steps. Extensive experiments demonstrate~\name~outperforms state-of-the-art methods on both synthetic and real-world datasets.

Summary

AI-Generated Summary

PDF563January 7, 2025