Kollaborative Videodiffusion: Konsistente Multi-Video-Erstellung mit Kamerasteuerung
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
May 27, 2024
Autoren: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI
Zusammenfassung
Forschung zur Videogenerierung hat in letzter Zeit enorme Fortschritte gemacht, die es ermöglichen, hochwertige Videos aus Textvorgaben oder Bildern zu generieren. Die Hinzufügung von Kontrolle zum Videogenerierungsprozess ist ein wichtiges Ziel für die Zukunft, und aktuelle Ansätze, die Videogenerierungsmodelle auf Kameratrajektorien konditionieren, machen Fortschritte in diese Richtung. Dennoch bleibt es herausfordernd, ein Video derselben Szene aus mehreren verschiedenen Kameratrajektorien zu generieren. Lösungen für dieses Multi-Video-Generierungsproblem könnten die groß angelegte 3D-Szenengenerierung mit editierbaren Kameratrajektorien ermöglichen, unter anderem. Wir stellen die kollaborative Videodiffusion (CVD) als einen wichtigen Schritt in diese Richtung vor. Das CVD-Framework umfasst ein neuartiges Cross-Video-Synchronisationsmodul, das die Konsistenz zwischen entsprechenden Frames desselben Videos fördert, die aus verschiedenen Kamerapositionen gerendert wurden, unter Verwendung eines epipolaren Aufmerksamkeitsmechanismus. Trainiert auf Basis eines hochmodernen Kamerasteuerungsmoduls für die Videogenerierung, generiert CVD mehrere Videos, die aus verschiedenen Kameratrajektorien gerendert wurden, mit deutlich besserer Konsistenz als Baselines, wie in umfangreichen Experimenten gezeigt. Projektpage: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling
high-quality videos to be generated from text prompts or images. Adding control
to the video generation process is an important goal moving forward and recent
approaches that condition video generation models on camera trajectories make
strides towards it. Yet, it remains challenging to generate a video of the same
scene from multiple different camera trajectories. Solutions to this
multi-video generation problem could enable large-scale 3D scene generation
with editable camera trajectories, among other applications. We introduce
collaborative video diffusion (CVD) as an important step towards this vision.
The CVD framework includes a novel cross-video synchronization module that
promotes consistency between corresponding frames of the same video rendered
from different camera poses using an epipolar attention mechanism. Trained on
top of a state-of-the-art camera-control module for video generation, CVD
generates multiple videos rendered from different camera trajectories with
significantly better consistency than baselines, as shown in extensive
experiments. Project page: https://collaborativevideodiffusion.github.io/.Summary
AI-Generated Summary