Cavia: Difusão de Vídeo Multi-visão Controlada por Câmera com Atenção Integrada à Visão
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
Autores: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
Resumo
Nos últimos anos, têm ocorrido avanços notáveis na geração de imagens para vídeos. No entanto, a consistência tridimensional e a controlabilidade da câmera dos frames gerados permanecem sem solução. Estudos recentes têm tentado incorporar o controle da câmera no processo de geração, mas seus resultados frequentemente se limitam a trajetórias simples ou carecem da capacidade de gerar vídeos consistentes a partir de múltiplos caminhos de câmera distintos para a mesma cena. Para lidar com essas limitações, apresentamos o Cavia, um novo framework para geração de vídeos multi-view controláveis por câmera, capaz de converter uma imagem de entrada em múltiplos vídeos espaciotemporalmente consistentes. Nosso framework estende os módulos de atenção espacial e temporal em módulos de atenção integrados à visualização, melhorando tanto a consistência de ponto de vista quanto a temporal. Esse design flexível permite o treinamento conjunto com diversas fontes de dados curadas, incluindo vídeos estáticos em nível de cena, vídeos dinâmicos multi-view sintéticos em nível de objeto e vídeos dinâmicos monoculares do mundo real. Até onde sabemos, o Cavia é o primeiro de seu tipo que permite ao usuário especificar precisamente o movimento da câmera ao obter o movimento do objeto. Experimentos extensivos demonstram que o Cavia supera os métodos de ponta em termos de consistência geométrica e qualidade perceptual. Página do Projeto: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary