SynCamMaster: Sincronização na Geração de Vídeo de Múltiplas Câmeras a partir de Diversos Pontos de Vista
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
Autores: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
Resumo
Os avanços recentes em modelos de difusão de vídeo têm demonstrado habilidades excepcionais em simular dinâmicas do mundo real e manter consistência tridimensional. Este progresso nos inspira a investigar o potencial desses modelos para garantir consistência dinâmica em várias perspectivas, uma característica altamente desejável para aplicações como filmagem virtual. Ao contrário de métodos existentes focados na geração de múltiplas visualizações de objetos individuais para reconstrução 4D, nosso interesse reside em gerar vídeos de mundo aberto a partir de perspectivas arbitrárias, incorporando poses de câmera de 6 graus de liberdade. Para alcançar isso, propomos um módulo plug-and-play que aprimora um modelo pré-treinado de texto-para-vídeo para geração de vídeo multi-câmera, garantindo conteúdo consistente em diferentes perspectivas. Especificamente, introduzimos um módulo de sincronização multi-visualização para manter a consistência de aparência e geometria nessas perspectivas. Dada a escassez de dados de treinamento de alta qualidade, projetamos um esquema de treinamento híbrido que aproveita imagens de múltiplas câmeras e vídeos monoculares para complementar vídeos de múltiplas câmeras renderizados no Unreal Engine. Além disso, nosso método possibilita extensões intrigantes, como re-renderizar um vídeo a partir de novas perspectivas. Também disponibilizamos um conjunto de dados de vídeo sincronizado de várias visualizações, denominado SynCamVideo-Dataset. Página do projeto: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.Summary
AI-Generated Summary