ZeroSmooth: Adattamento senza Addestramento di Diffusori per la Generazione di Video ad Alta Frequenza di Fotogrammi
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
Autori: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
Abstract
La generazione di video ha compiuto progressi significativi negli ultimi anni, in particolare dall'avvento dei modelli di diffusione video. Molti modelli di generazione video sono in grado di produrre video sintetici plausibili, come ad esempio Stable Video Diffusion (SVD). Tuttavia, la maggior parte dei modelli video può generare solo video con un basso frame rate a causa della limitata memoria GPU e della difficoltà di modellare un ampio set di frame. I video di addestramento vengono sempre campionati uniformemente a intervalli specifici per la compressione temporale. I metodi precedenti aumentano il frame rate addestrando un modello di interpolazione video nello spazio dei pixel come fase di post-elaborazione o addestrando un modello di interpolazione nello spazio latente per un specifico modello video di base. In questo articolo, proponiamo un metodo di interpolazione video senza addestramento per modelli di diffusione video generativi, che è generalizzabile a diversi modelli in modo plug-and-play. Investigiamo la non linearità nello spazio delle feature dei modelli di diffusione video e trasformiamo un modello video in un modello di diffusione video auto-cascata, incorporando i moduli di correzione dello stato nascosto progettati. L'architettura auto-cascata e il modulo di correzione sono proposti per mantenere la coerenza temporale tra i frame chiave e i frame interpolati. Valutazioni estensive vengono condotte su diversi modelli video popolari per dimostrare l'efficacia del metodo proposto, in particolare il fatto che il nostro metodo senza addestramento è paragonabile a modelli di interpolazione addestrati supportati da enormi risorse computazionali e dataset su larga scala.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.