ZeroSmooth : Adaptation sans entraînement de diffuseurs pour la génération de vidéos à haute fréquence d'images
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
Auteurs: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
Résumé
La génération vidéo a réalisé des progrès remarquables ces dernières années, en particulier depuis l'avènement des modèles de diffusion vidéo. De nombreux modèles de génération vidéo peuvent produire des vidéos synthétiques plausibles, comme le Stable Video Diffusion (SVD). Cependant, la plupart des modèles vidéo ne peuvent générer que des vidéos à faible taux de rafraîchissement en raison de la mémoire GPU limitée ainsi que de la difficulté à modéliser un grand nombre d'images. Les vidéos d'entraînement sont toujours échantillonnées de manière uniforme à un intervalle spécifié pour la compression temporelle. Les méthodes précédentes augmentent le taux de rafraîchissement soit en entraînant un modèle d'interpolation vidéo dans l'espace pixel comme étape de post-traitement, soit en entraînant un modèle d'interpolation dans l'espace latent pour un modèle vidéo de base spécifique. Dans cet article, nous proposons une méthode d'interpolation vidéo sans entraînement pour les modèles de diffusion vidéo génératifs, qui est généralisable à différents modèles de manière plug-and-play. Nous étudions la non-linéarité dans l'espace des caractéristiques des modèles de diffusion vidéo et transformons un modèle vidéo en un modèle de diffusion vidéo auto-cascadé en intégrant des modules de correction d'état caché conçus. L'architecture auto-cascadée et le module de correction sont proposés pour préserver la cohérence temporelle entre les images clés et les images interpolées. Des évaluations approfondies sont effectuées sur plusieurs modèles vidéo populaires pour démontrer l'efficacité de la méthode proposée, en particulier que notre méthode sans entraînement est même comparable aux modèles d'interpolation entraînés soutenus par d'importantes ressources de calcul et des jeux de données à grande échelle.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.Summary
AI-Generated Summary