Коллаборативное видеораспространение: последовательная генерация многоканальных видео с управлением камерой
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
May 27, 2024
Авторы: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI
Аннотация
Исследования в области генерации видео недавно сделали огромный прогресс, позволяя создавать видео высокого качества по текстовым подсказкам или изображениям. Добавление управления в процесс генерации видео является важной целью на данном этапе, и недавние подходы, которые условно на траектории камеры модели генерации видео, делают значительные шаги в этом направлении. Однако остается сложной задачей создание видео одной и той же сцены из различных траекторий камеры. Решения этой проблемы множественной генерации видео могут обеспечить создание трехмерных сцен в большом масштабе с возможностью редактирования траекторий камеры, среди прочего. Мы представляем коллаборативную диффузию видео (CVD) как важный шаг в этом направлении. Фреймворк CVD включает новый модуль синхронизации между видео, который способствует согласованности между соответствующими кадрами одного и того же видео, созданных из различных поз камеры с использованием механизма внимания к эпиполярным точкам. Обученный поверх современного модуля управления камерой для генерации видео, CVD генерирует несколько видео, созданных из различных траекторий камеры, с значительно лучшей согласованностью по сравнению с базовыми методами, как показано в обширных экспериментах. Страница проекта: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling
high-quality videos to be generated from text prompts or images. Adding control
to the video generation process is an important goal moving forward and recent
approaches that condition video generation models on camera trajectories make
strides towards it. Yet, it remains challenging to generate a video of the same
scene from multiple different camera trajectories. Solutions to this
multi-video generation problem could enable large-scale 3D scene generation
with editable camera trajectories, among other applications. We introduce
collaborative video diffusion (CVD) as an important step towards this vision.
The CVD framework includes a novel cross-video synchronization module that
promotes consistency between corresponding frames of the same video rendered
from different camera poses using an epipolar attention mechanism. Trained on
top of a state-of-the-art camera-control module for video generation, CVD
generates multiple videos rendered from different camera trajectories with
significantly better consistency than baselines, as shown in extensive
experiments. Project page: https://collaborativevideodiffusion.github.io/.Summary
AI-Generated Summary