ChatPaper.aiChatPaper

VEnhancer: Generative Raum-Zeit-Verbesserung für die Videogenerierung

VEnhancer: Generative Space-Time Enhancement for Video Generation

July 10, 2024
Autoren: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI

Zusammenfassung

Wir präsentieren VEnhancer, ein generatives Raum-Zeit-Verbesserungsframework, das die bestehenden Text-zu-Video-Ergebnisse verbessert, indem es mehr Details im räumlichen Bereich hinzufügt und synthetische detaillierte Bewegungen im zeitlichen Bereich erzeugt. Ausgehend von einem generierten Video von geringer Qualität kann unser Ansatz die räumliche und zeitliche Auflösung gleichzeitig mit beliebigen Upsampling-Raum- und Zeitskalen durch ein vereinheitlichtes Videodiffusionsmodell erhöhen. Darüber hinaus entfernt VEnhancer effektiv generierte räumliche Artefakte und zeitliches Flimmern von generierten Videos. Um dies zu erreichen, trainieren wir basierend auf einem vorab trainierten Videodiffusionsmodell ein Video ControlNet und injizieren es als Bedingung für Videos mit geringer Bildrate und geringer Auflösung in das Diffusionsmodell. Um dieses Video ControlNet effektiv zu trainieren, entwerfen wir Raum-Zeit-Datenaugmentation sowie video-bewusste Bedingungen. Durch die oben genannten Entwürfe erweist sich VEnhancer als stabil während des Trainings und folgt einem eleganten End-to-End-Trainingsansatz. Umfangreiche Experimente zeigen, dass VEnhancer bestehende State-of-the-Art-Methoden zur Video-Superauflösung und Raum-Zeit-Superauflösung in der Verbesserung von KI-generierten Videos übertrifft. Darüber hinaus erreicht mit VEnhancer die bestehende Open-Source-State-of-the-Art-Text-zu-Video-Methode, VideoCrafter-2, den ersten Platz im Video-Generierungs-Benchmark - VBench.
English
We present VEnhancer, a generative space-time enhancement framework that improves the existing text-to-video results by adding more details in spatial domain and synthetic detailed motion in temporal domain. Given a generated low-quality video, our approach can increase its spatial and temporal resolution simultaneously with arbitrary up-sampling space and time scales through a unified video diffusion model. Furthermore, VEnhancer effectively removes generated spatial artifacts and temporal flickering of generated videos. To achieve this, basing on a pretrained video diffusion model, we train a video ControlNet and inject it to the diffusion model as a condition on low frame-rate and low-resolution videos. To effectively train this video ControlNet, we design space-time data augmentation as well as video-aware conditioning. Benefiting from the above designs, VEnhancer yields to be stable during training and shares an elegant end-to-end training manner. Extensive experiments show that VEnhancer surpasses existing state-of-the-art video super-resolution and space-time super-resolution methods in enhancing AI-generated videos. Moreover, with VEnhancer, exisiting open-source state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in video generation benchmark -- VBench.

Summary

AI-Generated Summary

PDF151November 28, 2024