Difusión Colaborativa de Video: Generación Consistente de Múltiples Videos con Control de Cámara
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
May 27, 2024
Autores: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI
Resumen
La investigación sobre generación de videos ha avanzado enormemente en los últimos tiempos, permitiendo la creación de videos de alta calidad a partir de indicaciones de texto o imágenes. Agregar control al proceso de generación de videos es un objetivo importante para el futuro, y enfoques recientes que condicionan los modelos de generación de videos en trayectorias de cámara han dado pasos significativos en esta dirección. Sin embargo, sigue siendo un desafío generar un video de la misma escena desde múltiples trayectorias de cámara diferentes. Las soluciones a este problema de generación de múltiples videos podrían permitir la creación de escenas 3D a gran escala con trayectorias de cámara editables, entre otras aplicaciones. Presentamos la difusión colaborativa de videos (CVD, por sus siglas en inglés) como un paso importante hacia esta visión. El marco de trabajo de CVD incluye un novedoso módulo de sincronización cruzada entre videos que promueve la consistencia entre los fotogramas correspondientes del mismo video renderizado desde diferentes poses de cámara, utilizando un mecanismo de atención epipolar. Entrenado sobre un módulo de control de cámara de última generación para la generación de videos, CVD genera múltiples videos renderizados desde diferentes trayectorias de cámara con una consistencia significativamente mejor que los métodos de referencia, como se demuestra en experimentos exhaustivos. Página del proyecto: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling
high-quality videos to be generated from text prompts or images. Adding control
to the video generation process is an important goal moving forward and recent
approaches that condition video generation models on camera trajectories make
strides towards it. Yet, it remains challenging to generate a video of the same
scene from multiple different camera trajectories. Solutions to this
multi-video generation problem could enable large-scale 3D scene generation
with editable camera trajectories, among other applications. We introduce
collaborative video diffusion (CVD) as an important step towards this vision.
The CVD framework includes a novel cross-video synchronization module that
promotes consistency between corresponding frames of the same video rendered
from different camera poses using an epipolar attention mechanism. Trained on
top of a state-of-the-art camera-control module for video generation, CVD
generates multiple videos rendered from different camera trajectories with
significantly better consistency than baselines, as shown in extensive
experiments. Project page: https://collaborativevideodiffusion.github.io/.Summary
AI-Generated Summary