ChatPaper.aiChatPaper

OSV : Une seule étape suffit pour générer des vidéos de haute qualité à partir d'images.

OSV: One Step is Enough for High-Quality Image to Video Generation

September 17, 2024
Auteurs: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
cs.AI

Résumé

Les modèles de diffusion vidéo ont montré un grand potentiel dans la génération de vidéos de haute qualité, ce qui en fait un sujet de plus en plus populaire. Cependant, leur nature itérative inhérente entraîne des coûts computationnels et temporels substantiels. Bien que des efforts aient été déployés pour accélérer la diffusion vidéo en réduisant les étapes d'inférence (à travers des techniques telles que la distillation de la cohérence) et l'entraînement GAN (ces approches sont souvent limitées soit en performance, soit en stabilité d'entraînement). Dans ce travail, nous introduisons un cadre d'entraînement en deux étapes qui combine efficacement la distillation de la cohérence avec l'entraînement GAN pour relever ces défis. De plus, nous proposons une conception novatrice de discriminateur vidéo, qui élimine le besoin de décodage des latents vidéo et améliore les performances finales. Notre modèle est capable de produire des vidéos de haute qualité en une seule étape, avec la flexibilité d'effectuer un affinement multi-étapes pour une amélioration ultérieure des performances. Notre évaluation quantitative sur le benchmark OpenWebVid-1M montre que notre modèle surpasse significativement les méthodes existantes. Notamment, notre performance en une étape (FVD 171.15) dépasse la performance en 8 étapes de la méthode basée sur la distillation de la cohérence, AnimateLCM (FVD 184.79), et se rapproche de la performance en 25 étapes de la diffusion vidéo stable avancée (FVD 156.94).
English
Video diffusion models have shown great potential in generating high-quality videos, making them an increasingly popular focus. However, their inherent iterative nature leads to substantial computational and time costs. While efforts have been made to accelerate video diffusion by reducing inference steps (through techniques like consistency distillation) and GAN training (these approaches often fall short in either performance or training stability). In this work, we introduce a two-stage training framework that effectively combines consistency distillation with GAN training to address these challenges. Additionally, we propose a novel video discriminator design, which eliminates the need for decoding the video latents and improves the final performance. Our model is capable of producing high-quality videos in merely one-step, with the flexibility to perform multi-step refinement for further performance enhancement. Our quantitative evaluation on the OpenWebVid-1M benchmark shows that our model significantly outperforms existing methods. Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of the consistency distillation based method, AnimateLCM (FVD 184.79), and approaches the 25-step performance of advanced Stable Video Diffusion (FVD 156.94).

Summary

AI-Generated Summary

PDF142November 16, 2024