Redéfinition de la modélisation temporelle dans la diffusion vidéo : l'approche par pas de temps vectorisé
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
October 4, 2024
Auteurs: Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel
cs.AI
Résumé
Les modèles de diffusion ont révolutionné la génération d'images, et leur extension à la génération de vidéos a montré des promesses. Cependant, les modèles de diffusion vidéo actuels (VDM) s'appuient sur une variable de pas de temps scalaire appliquée au niveau du clip, ce qui limite leur capacité à modéliser les dépendances temporelles complexes nécessaires pour diverses tâches telles que la génération d'images en vidéo. Pour remédier à cette limitation, nous proposons un modèle de diffusion vidéo conscient des images (FVDM), qui introduit une nouvelle variable de pas de temps vectorisée (VTV). Contrairement aux VDM conventionnels, notre approche permet à chaque image de suivre un calendrier de bruit indépendant, améliorant la capacité du modèle à capturer des dépendances temporelles fines. La flexibilité de FVDM est démontrée à travers plusieurs tâches, notamment la génération de vidéos standard, la génération d'images en vidéo, l'interpolation vidéo et la synthèse de longues vidéos. À travers un ensemble diversifié de configurations VTV, nous obtenons une qualité supérieure dans les vidéos générées, surmontant des défis tels que l'oubli catastrophique lors du fine-tuning et la généralisabilité limitée dans les méthodes de zéro-shot. Nos évaluations empiriques montrent que FVDM surpasse les méthodes de pointe en termes de qualité de génération de vidéos, tout en excellant également dans des tâches étendues. En abordant les lacunes fondamentales des VDM existants, FVDM établit un nouveau paradigme dans la synthèse vidéo, offrant un cadre robuste avec des implications significatives pour la modélisation générative et les applications multimédias.
English
Diffusion models have revolutionized image generation, and their extension to
video generation has shown promise. However, current video diffusion
models~(VDMs) rely on a scalar timestep variable applied at the clip level,
which limits their ability to model complex temporal dependencies needed for
various tasks like image-to-video generation. To address this limitation, we
propose a frame-aware video diffusion model~(FVDM), which introduces a novel
vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach
allows each frame to follow an independent noise schedule, enhancing the
model's capacity to capture fine-grained temporal dependencies. FVDM's
flexibility is demonstrated across multiple tasks, including standard video
generation, image-to-video generation, video interpolation, and long video
synthesis. Through a diverse set of VTV configurations, we achieve superior
quality in generated videos, overcoming challenges such as catastrophic
forgetting during fine-tuning and limited generalizability in zero-shot
methods.Our empirical evaluations show that FVDM outperforms state-of-the-art
methods in video generation quality, while also excelling in extended tasks. By
addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm
in video synthesis, offering a robust framework with significant implications
for generative modeling and multimedia applications.Summary
AI-Generated Summary