Cavia: Difusión de Video Multivista Controlada por Cámara con Atención Integrada de Vistas
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
Autores: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
Resumen
En los últimos años ha habido avances notables en la generación de imágenes a video. Sin embargo, la consistencia tridimensional y la controlabilidad de cámara de los fotogramas generados han permanecido sin resolver. Estudios recientes han intentado incorporar el control de cámara en el proceso de generación, pero sus resultados suelen estar limitados a trayectorias simples o carecen de la capacidad de generar videos consistentes a partir de múltiples rutas de cámara distintas para la misma escena. Para abordar estas limitaciones, presentamos Cavia, un nuevo marco para la generación de videos multi-vista controlables por cámara, capaz de convertir una imagen de entrada en múltiples videos espaciotemporalmente consistentes. Nuestro marco extiende los módulos de atención espacial y temporal en módulos de atención integrados en la vista, mejorando tanto la consistencia del punto de vista como la temporal. Este diseño flexible permite el entrenamiento conjunto con diversas fuentes de datos curados, incluidos videos estáticos a nivel de escena, videos dinámicos multi-vista sintéticos a nivel de objeto y videos dinámicos monoculares del mundo real. Hasta donde sabemos, Cavia es el primero en su tipo que permite al usuario especificar con precisión el movimiento de la cámara al mismo tiempo que se obtiene el movimiento del objeto. Experimentos extensos demuestran que Cavia supera a los métodos de vanguardia en cuanto a consistencia geométrica y calidad perceptual. Página del proyecto: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary