ChatPaper.aiChatPaper

OSV: Eén stap is voldoende voor het genereren van video van hoge kwaliteit uit afbeeldingen.

OSV: One Step is Enough for High-Quality Image to Video Generation

September 17, 2024
Auteurs: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
cs.AI

Samenvatting

Videodiffusiemodellen hebben een groot potentieel laten zien in het genereren van hoogwaardige video's, waardoor ze een steeds populairder onderwerp worden. Hun inherente iteratieve aard leidt echter tot aanzienlijke computationele en tijdkosten. Hoewel er inspanningen zijn geleverd om videodiffusie te versnellen door het verminderen van inferentiestappen (via technieken zoals consistentiedistillatie) en GAN-training (deze benaderingen schieten vaak tekort in prestaties of trainingsstabiliteit). In dit werk introduceren we een tweefasig trainingskader dat op effectieve wijze consistentiedistillatie combineert met GAN-training om deze uitdagingen aan te pakken. Daarnaast stellen we een nieuw ontwerp voor van een videodiscriminator, die de noodzaak voor het decoderen van de videolatentie elimineert en de uiteindelijke prestaties verbetert. Ons model is in staat om hoogwaardige video's te produceren in slechts één stap, met de flexibiliteit om meerstapsverfijning uit te voeren voor verdere prestatieverbetering. Onze kwantitatieve evaluatie op de OpenWebVid-1M benchmark toont aan dat ons model aanzienlijk beter presteert dan bestaande methoden. Opmerkelijk is dat onze prestatie in één stap (FVD 171.15) de prestatie van 8 stappen van de op consistentiedistillatie gebaseerde methode, AnimateLCM (FVD 184.79), overtreft en de prestatie van 25 stappen van geavanceerde Stable Video Diffusion (FVD 156.94) benadert.
English
Video diffusion models have shown great potential in generating high-quality videos, making them an increasingly popular focus. However, their inherent iterative nature leads to substantial computational and time costs. While efforts have been made to accelerate video diffusion by reducing inference steps (through techniques like consistency distillation) and GAN training (these approaches often fall short in either performance or training stability). In this work, we introduce a two-stage training framework that effectively combines consistency distillation with GAN training to address these challenges. Additionally, we propose a novel video discriminator design, which eliminates the need for decoding the video latents and improves the final performance. Our model is capable of producing high-quality videos in merely one-step, with the flexibility to perform multi-step refinement for further performance enhancement. Our quantitative evaluation on the OpenWebVid-1M benchmark shows that our model significantly outperforms existing methods. Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of the consistency distillation based method, AnimateLCM (FVD 184.79), and approaches the 25-step performance of advanced Stable Video Diffusion (FVD 156.94).

Summary

AI-Generated Summary

PDF142November 16, 2024