STAR: Aumento Spazio-Temporale con Modelli Testo-Video per la Super-Risoluzione Video nel Mondo RealeSTAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
I modelli di diffusione delle immagini sono stati adattati per la super-risoluzione video nel mondo reale al fine di affrontare i problemi di eccessiva levigatura nei metodi basati su GAN. Tuttavia, questi modelli faticano a mantenere coerenza temporale, poiché vengono addestrati su immagini statiche, limitando la loro capacità di catturare dinamiche temporali in modo efficace. Integrare modelli di testo-a-video (T2V) nella super-risoluzione video per un miglioramento della modellazione temporale è diretto. Tuttavia, rimangono due sfide chiave: artefatti introdotti da degradazioni complesse in scenari del mondo reale e compromissione della fedeltà a causa della forte capacità generativa di potenti modelli T2V (ad esempio, CogVideoX-5B). Per migliorare la qualità spazio-temporale dei video ripristinati, presentiamo \textit{STARS} (Aumento Spazio-Temporale con modelli T2V per la super-risoluzione video nel mondo reale), un approccio innovativo che sfrutta i modelli T2V per la super-risoluzione video nel mondo reale, ottenendo dettagli spaziali realistici e una robusta coerenza temporale. In particolare, introduciamo un Modulo di Potenziamento delle Informazioni Locali (LIEM) prima del blocco di attenzione globale per arricchire i dettagli locali e mitigare gli artefatti di degradazione. Inoltre, proponiamo una Perdita di Frequenza Dinamica (DF) per rafforzare la fedeltà, guidando il modello a concentrarsi su diversi componenti di frequenza attraverso i passaggi di diffusione. Estesi esperimenti dimostrano che \textit{STARS} supera i metodi all'avanguardia su entrambi i dataset sintetici e del mondo reale.