STAR: Ruimtelijk-Temporale Augmentatie met Tekst-naar-Video Modellen voor Superresolutie van Video's in de Echte WereldSTAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
Beeldverspreidingsmodellen zijn aangepast voor video-superresolutie in de echte wereld om overmatig vervagen aan te pakken in op GAN gebaseerde methoden. Deze modellen hebben echter moeite om temporele consistentie te behouden, omdat ze zijn getraind op statische beelden, waardoor hun vermogen om temporele dynamiek effectief vast te leggen beperkt is. Het integreren van tekst-naar-video (T2V) modellen in video-superresolutie voor verbeterde temporele modellering is eenvoudig. Er zijn echter twee belangrijke uitdagingen: artefacten geïntroduceerd door complexe degradaties in echte scenario's, en aangetaste geloofwaardigheid als gevolg van de sterke generatieve capaciteit van krachtige T2V modellen (bijv. CogVideoX-5B). Om de ruimtelijk-temporele kwaliteit van herstelde video's te verbeteren, introduceren we \name (Ruimtelijk-Temporele Augmentatie met T2V modellen voor Video-superresolutie in de echte wereld), een nieuw benadering die T2V modellen benut voor video-superresolutie in de echte wereld, waarbij realistische ruimtelijke details en robuuste temporele consistentie worden bereikt. Specifiek introduceren we een Module voor Lokale Informatieverbetering (LIEM) vóór het globale aandachtsblok om lokale details te verrijken en degradatie-artefacten te verminderen. Bovendien stellen we een Dynamisch Frequentie (DF) Verlies voor om de geloofwaardigheid te versterken, waarbij het model wordt geleid om zich te richten op verschillende frequentiecomponenten over verspreidingsstappen. Uitgebreide experimenten tonen aan dat \name beter presteert dan state-of-the-art methoden op zowel synthetische als echte datasets.