STAR: Raum-Zeit-Augmentierung mit Text-zu-Video-Modellen für die Superauflösung von Echtzeitvideos.STAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
Bildverbreitungsmodelle wurden für die Video-Superauflösung in der realen Welt angepasst, um Überglättungsprobleme in GAN-basierten Methoden zu bewältigen. Diese Modelle haben jedoch Schwierigkeiten, die zeitliche Konsistenz aufrechtzuerhalten, da sie auf statischen Bildern trainiert sind, was ihre Fähigkeit, zeitliche Dynamiken effektiv zu erfassen, einschränkt. Die Integration von Text-zu-Video (T2V)-Modellen in die Video-Superauflösung zur Verbesserung der zeitlichen Modellierung ist unkompliziert. Es bleiben jedoch zwei Hauptprobleme bestehen: Artefakte, die durch komplexe Degradierungen in realen Szenarien eingeführt werden, und beeinträchtigte Treue aufgrund der starken generativen Kapazität leistungsstarker T2V-Modelle (z. B. CogVideoX-5B). Um die räumlich-zeitliche Qualität wiederhergestellter Videos zu verbessern, stellen wir \name vor (Räumlich-zeitliche Augmentierung mit T2V-Modellen für die Video-Superauflösung in der realen Welt), einen neuartigen Ansatz, der T2V-Modelle für die Video-Superauflösung in der realen Welt nutzt und realistische räumliche Details und robuste zeitliche Konsistenz erreicht. Speziell führen wir ein Lokales Informationsverbesserungsmodul (LIEM) vor dem globalen Aufmerksamkeitsblock ein, um lokale Details anzureichern und Degradierungsartefakte zu mildern. Darüber hinaus schlagen wir einen Dynamischen Frequenz (DF)-Verlust vor, um die Treue zu verstärken und das Modell zu leiten, sich auf verschiedene Frequenzkomponenten über die Diffusionsschritte zu konzentrieren. Umfangreiche Experimente zeigen, dass \name sowohl auf synthetischen als auch auf realen Datensätzen die Methoden auf dem neuesten Stand der Technik übertrifft.