STAR : Augmentation Spatio-Temporelle avec des ModÚles Texte-Vidéo pour la Super-Résolution Vidéo en Temps RéelSTAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
Les modÚles de diffusion d'images ont été adaptés pour la super-résolution vidéo en monde réel afin de résoudre les problÚmes de lissage excessif rencontrés dans les méthodes basées sur les GAN. Cependant, ces modÚles ont du mal à maintenir une cohérence temporelle, car ils sont entraßnés sur des images statiques, ce qui limite leur capacité à capturer efficacement les dynamiques temporelles. L'intégration de modÚles texte-vidéo (T2V) dans la super-résolution vidéo pour une modélisation temporelle améliorée est simple. Cependant, deux défis clés subsistent : les artefacts introduits par des dégradations complexes dans des scénarios du monde réel, et la compromission de la fidélité en raison de la forte capacité générative des puissants modÚles T2V (par exemple, CogVideoX-5B). Pour améliorer la qualité spatio-temporelle des vidéos restaurées, nous présentons \name (Augmentation Spatio-Temporelle avec des modÚles T2V pour la super-résolution vidéo en monde réel), une approche novatrice qui exploite les modÚles T2V pour la super-résolution vidéo en monde réel, permettant d'obtenir des détails spatiaux réalistes et une cohérence temporelle robuste. Plus précisément, nous introduisons un Module d'Amélioration de l'Information Locale (LIEM) avant le bloc d'attention global pour enrichir les détails locaux et atténuer les artefacts de dégradation. De plus, nous proposons une Perte de Fréquence Dynamique (DF) pour renforcer la fidélité, guidant le modÚle pour se concentrer sur différentes composantes de fréquence à travers les étapes de diffusion. Des expériences approfondies démontrent que \name surpasse les méthodes de pointe sur des ensembles de données synthétiques et du monde réel.