VideoElevator: Verbetering van videogeneratiekwaliteit met veelzijdige tekst-naar-beeld diffusiemodellen
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
Auteurs: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
Samenvatting
Text-to-image diffusiemodellen (T2I) hebben ongekende mogelijkheden getoond in het creëren van realistische en esthetische afbeeldingen. Daarentegen blijven text-to-video diffusiemodellen (T2V) ver achter in frame-kwaliteit en tekstuitlijning, vanwege onvoldoende kwaliteit en hoeveelheid van trainingsvideo's. In dit artikel introduceren we VideoElevator, een trainingsvrije en plug-and-play methode, die de prestaties van T2V verhoogt door gebruik te maken van de superieure mogelijkheden van T2I. In tegenstelling tot conventionele T2V-steekproeven (d.w.z. temporele en ruimtelijke modellering), ontbindt VideoElevator expliciet elke steekproefstap in temporele bewegingverfijning en ruimtelijke kwaliteitsverhoging. Specifiek gebruikt temporele bewegingverfijning ingekapselde T2V om temporele consistentie te verbeteren, gevolgd door inversie naar de ruisverdeling die vereist is door T2I. Vervolgens benut ruimtelijke kwaliteitsverhoging opgeblazen T2I om direct minder ruisachtige latenten te voorspellen, waardoor meer foto-realistische details worden toegevoegd. We hebben experimenten uitgevoerd met uitgebreide prompts onder de combinatie van verschillende T2V en T2I. De resultaten tonen aan dat VideoElevator niet alleen de prestaties van T2V-baselines verbetert met fundamentele T2I, maar ook stijlvolle videosynthese faciliteert met gepersonaliseerde T2I. Onze code is beschikbaar op https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.