Diffusion collaborative pour vidéos : Génération cohérente de multividéos avec contrôle de caméra
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
May 27, 2024
papers.authors: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI
papers.abstract
La recherche sur la génération vidéo a récemment accompli des progrès considérables, permettant de produire des vidéos de haute qualité à partir de prompts textuels ou d'images. L'ajout de contrôle au processus de génération vidéo constitue un objectif important pour l'avenir, et les approches récentes qui conditionnent les modèles de génération vidéo sur des trajectoires de caméra marquent des avancées significatives dans cette direction. Cependant, il reste difficile de générer une vidéo de la même scène à partir de multiples trajectoires de caméra différentes. Des solutions à ce problème de génération multi-vidéo pourraient permettre la génération à grande échelle de scènes 3D avec des trajectoires de caméra modifiables, entre autres applications. Nous introduisons la diffusion vidéo collaborative (Collaborative Video Diffusion, CVD) comme une étape importante vers cette vision. Le cadre CVD inclut un module innovant de synchronisation inter-vidéo qui favorise la cohérence entre les images correspondantes d'une même vidéo rendues à partir de différentes poses de caméra, en utilisant un mécanisme d'attention épipolaire. Entraîné sur un module de contrôle de caméra de pointe pour la génération vidéo, CVD génère plusieurs vidéos rendues à partir de différentes trajectoires de caméra avec une cohérence nettement supérieure aux méthodes de référence, comme le démontrent des expériences approfondies. Page du projet : https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling
high-quality videos to be generated from text prompts or images. Adding control
to the video generation process is an important goal moving forward and recent
approaches that condition video generation models on camera trajectories make
strides towards it. Yet, it remains challenging to generate a video of the same
scene from multiple different camera trajectories. Solutions to this
multi-video generation problem could enable large-scale 3D scene generation
with editable camera trajectories, among other applications. We introduce
collaborative video diffusion (CVD) as an important step towards this vision.
The CVD framework includes a novel cross-video synchronization module that
promotes consistency between corresponding frames of the same video rendered
from different camera poses using an epipolar attention mechanism. Trained on
top of a state-of-the-art camera-control module for video generation, CVD
generates multiple videos rendered from different camera trajectories with
significantly better consistency than baselines, as shown in extensive
experiments. Project page: https://collaborativevideodiffusion.github.io/.