Collaboratieve Video Diffusie: Consistente Multi-video Generatie met Camerabesturing
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
May 27, 2024
Auteurs: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI
Samenvatting
Onderzoek naar videogeneratie heeft recentelijk enorme vooruitgang geboekt, waardoor hoogwaardige video's kunnen worden gegenereerd op basis van tekstprompts of afbeeldingen. Het toevoegen van controle aan het videogeneratieproces is een belangrijk doel voor de toekomst, en recente benaderingen die videogeneratiemodellen conditioneren op cameratrajecten zetten hier stappen in. Toch blijft het een uitdaging om een video van dezelfde scène te genereren vanuit meerdere verschillende cameratrajecten. Oplossingen voor dit multi-videogeneratieprobleem zouden grootschalige 3D-scènegeneratie met bewerkbare cameratrajecten mogelijk kunnen maken, naast andere toepassingen. Wij introduceren collaborative video diffusion (CVD) als een belangrijke stap in de richting van deze visie. Het CVD-framework omvat een nieuwe cross-video synchronisatiemodule die consistentie bevordert tussen corresponderende frames van dezelfde video die vanuit verschillende cameraposities worden weergegeven, met behulp van een epipolair aandachtmechanisme. Getraind bovenop een state-of-the-art cameracontrolemodule voor videogeneratie, genereert CVD meerdere video's die vanuit verschillende cameratrajecten worden weergegeven met aanzienlijk betere consistentie dan baseline-methoden, zoals blijkt uit uitgebreide experimenten. Projectpagina: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling
high-quality videos to be generated from text prompts or images. Adding control
to the video generation process is an important goal moving forward and recent
approaches that condition video generation models on camera trajectories make
strides towards it. Yet, it remains challenging to generate a video of the same
scene from multiple different camera trajectories. Solutions to this
multi-video generation problem could enable large-scale 3D scene generation
with editable camera trajectories, among other applications. We introduce
collaborative video diffusion (CVD) as an important step towards this vision.
The CVD framework includes a novel cross-video synchronization module that
promotes consistency between corresponding frames of the same video rendered
from different camera poses using an epipolar attention mechanism. Trained on
top of a state-of-the-art camera-control module for video generation, CVD
generates multiple videos rendered from different camera trajectories with
significantly better consistency than baselines, as shown in extensive
experiments. Project page: https://collaborativevideodiffusion.github.io/.