AccVideo: Versnelling van videodiffusiemodellen met een synthetische dataset
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset
March 25, 2025
Auteurs: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Samenvatting
Diffusiemodellen hebben opmerkelijke vooruitgang geboekt op het gebied van videogeneratie. Hun iteratieve ruisverwijderingsproces vereist echter een groot aantal inferentiestappen om een video te genereren, wat traag en rekenkundig kostbaar is. In dit artikel beginnen we met een gedetailleerde analyse van de uitdagingen in bestaande diffusiedistillatiemethoden en stellen we een nieuwe efficiënte methode voor, genaamd AccVideo, om de inferentiestappen te verminderen voor het versnellen van videodiffusiemodellen met een synthetische dataset. We maken gebruik van het vooraf getrainde videodiffusiemodel om meerdere geldige ruisverwijderingstrajecten te genereren als onze synthetische dataset, waardoor het gebruik van nutteloze datapunten tijdens de distillatie wordt geëlimineerd. Op basis van de synthetische dataset ontwerpen we een trajectgebaseerde begeleiding met weinig stappen die belangrijke datapunten uit de ruisverwijderingstrajecten benut om de ruis-naar-video-mapping te leren, waardoor videogeneratie in minder stappen mogelijk wordt. Bovendien, aangezien de synthetische dataset de dataverdeling bij elke diffusietijdstap vastlegt, introduceren we een adversariaal trainingsstrategie om de uitvoerverdeling van het studentenmodel af te stemmen op die van onze synthetische dataset, waardoor de videokwaliteit wordt verbeterd. Uitgebreide experimenten tonen aan dat ons model een 8,5x verbetering in generatiesnelheid bereikt in vergelijking met het leraarmodel, terwijl vergelijkbare prestaties worden behouden. In vergelijking met eerdere versnellingsmethoden is onze aanpak in staat om video's van hogere kwaliteit en resolutie te genereren, d.w.z. 5 seconden, 720x1280, 24 fps.
English
Diffusion models have achieved remarkable progress in the field of video
generation. However, their iterative denoising nature requires a large number
of inference steps to generate a video, which is slow and computationally
expensive. In this paper, we begin with a detailed analysis of the challenges
present in existing diffusion distillation methods and propose a novel
efficient method, namely AccVideo, to reduce the inference steps for
accelerating video diffusion models with synthetic dataset. We leverage the
pretrained video diffusion model to generate multiple valid denoising
trajectories as our synthetic dataset, which eliminates the use of useless data
points during distillation. Based on the synthetic dataset, we design a
trajectory-based few-step guidance that utilizes key data points from the
denoising trajectories to learn the noise-to-video mapping, enabling video
generation in fewer steps. Furthermore, since the synthetic dataset captures
the data distribution at each diffusion timestep, we introduce an adversarial
training strategy to align the output distribution of the student model with
that of our synthetic dataset, thereby enhancing the video quality. Extensive
experiments demonstrate that our model achieves 8.5x improvements in generation
speed compared to the teacher model while maintaining comparable performance.
Compared to previous accelerating methods, our approach is capable of
generating videos with higher quality and resolution, i.e., 5-seconds,
720x1280, 24fps.Summary
AI-Generated Summary