Difusión Colaborativa de Video: Generación Consistente de Múltiples Videos con Control de Cámara

Resumen

La investigación sobre generación de videos ha avanzado enormemente en los últimos tiempos, permitiendo la creación de videos de alta calidad a partir de indicaciones de texto o imágenes. Agregar control al proceso de generación de videos es un objetivo importante para el futuro, y enfoques recientes que condicionan los modelos de generación de videos en trayectorias de cámara han dado pasos significativos en esta dirección. Sin embargo, sigue siendo un desafío generar un video de la misma escena desde múltiples trayectorias de cámara diferentes. Las soluciones a este problema de generación de múltiples videos podrían permitir la creación de escenas 3D a gran escala con trayectorias de cámara editables, entre otras aplicaciones. Presentamos la difusión colaborativa de videos (CVD, por sus siglas en inglés) como un paso importante hacia esta visión. El marco de trabajo de CVD incluye un novedoso módulo de sincronización cruzada entre videos que promueve la consistencia entre los fotogramas correspondientes del mismo video renderizado desde diferentes poses de cámara, utilizando un mecanismo de atención epipolar. Entrenado sobre un módulo de control de cámara de última generación para la generación de videos, CVD genera múltiples videos renderizados desde diferentes trayectorias de cámara con una consistencia significativamente mejor que los métodos de referencia, como se demuestra en experimentos exhaustivos. Página del proyecto: https://collaborativevideodiffusion.github.io/.

English

Research on video generation has recently made tremendous progress, enabling high-quality videos to be generated from text prompts or images. Adding control to the video generation process is an important goal moving forward and recent approaches that condition video generation models on camera trajectories make strides towards it. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. Solutions to this multi-video generation problem could enable large-scale 3D scene generation with editable camera trajectories, among other applications. We introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines, as shown in extensive experiments. Project page: https://collaborativevideodiffusion.github.io/.

Difusión Colaborativa de Video: Generación Consistente de Múltiples Videos con Control de Cámara

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

Resumen

Support