Zero4D : Génération de vidéos 4D sans entraînement à partir d'une seule vidéo utilisant un modèle de diffusion vidéo prêt à l'emploi
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model
March 28, 2025
Auteurs: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI
Résumé
Récemment, la génération de vidéos multi-vues ou 4D est devenue un sujet de recherche important. Cependant, les approches récentes pour la génération 4D continuent de se heurter à des limitations fondamentales, car elles reposent principalement sur l'exploitation de plusieurs modèles de diffusion vidéo avec un entraînement supplémentaire ou sur l'entraînement intensif en calcul d'un modèle de diffusion 4D complet, avec des données 4D réelles limitées et des coûts de calcul élevés. Pour relever ces défis, nous proposons ici la première méthode de génération de vidéos 4D sans entraînement, qui exploite des modèles de diffusion vidéo prêts à l'emploi pour générer des vidéos multi-vues à partir d'une seule vidéo d'entrée. Notre approche se compose de deux étapes clés : (1) En désignant les images de bord dans la grille d'échantillonnage spatio-temporelle comme images clés, nous les synthétisons d'abord à l'aide d'un modèle de diffusion vidéo, en utilisant une technique de déformation basée sur la profondeur pour guider le processus. Cette approche garantit une cohérence structurelle entre les images générées, préservant ainsi la cohérence spatiale et temporelle. (2) Nous interpolons ensuite les images restantes à l'aide d'un modèle de diffusion vidéo, construisant ainsi une grille d'échantillonnage entièrement peuplée et temporellement cohérente tout en préservant la cohérence spatiale et temporelle. Grâce à cette approche, nous étendons une seule vidéo en une vidéo multi-vues le long de nouvelles trajectoires de caméra tout en maintenant la cohérence spatio-temporelle. Notre méthode ne nécessite aucun entraînement et exploite pleinement un modèle de diffusion vidéo prêt à l'emploi, offrant ainsi une solution pratique et efficace pour la génération de vidéos multi-vues.
English
Recently, multi-view or 4D video generation has emerged as a significant
research topic. Nonetheless, recent approaches to 4D generation still struggle
with fundamental limitations, as they primarily rely on harnessing multiple
video diffusion models with additional training or compute-intensive training
of a full 4D diffusion model with limited real-world 4D data and large
computational costs. To address these challenges, here we propose the first
training-free 4D video generation method that leverages the off-the-shelf video
diffusion models to generate multi-view videos from a single input video. Our
approach consists of two key steps: (1) By designating the edge frames in the
spatio-temporal sampling grid as key frames, we first synthesize them using a
video diffusion model, leveraging a depth-based warping technique for guidance.
This approach ensures structural consistency across the generated frames,
preserving spatial and temporal coherence. (2) We then interpolate the
remaining frames using a video diffusion model, constructing a fully populated
and temporally coherent sampling grid while preserving spatial and temporal
consistency. Through this approach, we extend a single video into a multi-view
video along novel camera trajectories while maintaining spatio-temporal
consistency. Our method is training-free and fully utilizes an off-the-shelf
video diffusion model, offering a practical and effective solution for
multi-view video generation.Summary
AI-Generated Summary