ChatPaper.aiChatPaper

Difusão de Vídeo Colaborativa: Geração Consistente de Múltiplos Vídeos com Controle de Câmera

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

May 27, 2024
Autores: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI

Resumo

A pesquisa em geração de vídeo tem feito progressos significativos recentemente, permitindo a criação de vídeos de alta qualidade a partir de prompts de texto ou imagens. Adicionar controle ao processo de geração de vídeo é um objetivo importante para o avanço da área, e abordagens recentes que condicionam modelos de geração de vídeo a trajetórias de câmera têm dado passos nessa direção. No entanto, ainda é desafiador gerar um vídeo da mesma cena a partir de múltiplas trajetórias de câmera diferentes. Soluções para esse problema de geração de múltiplos vídeos poderiam permitir a criação de cenas 3D em grande escala com trajetórias de câmera editáveis, entre outras aplicações. Apresentamos a difusão de vídeo colaborativa (CVD, do inglês Collaborative Video Diffusion) como um passo importante em direção a essa visão. O framework CVD inclui um novo módulo de sincronização entre vídeos que promove consistência entre quadros correspondentes do mesmo vídeo renderizado a partir de diferentes poses de câmera, utilizando um mecanismo de atenção epipolar. Treinado sobre um módulo de controle de câmera de última geração para geração de vídeo, o CVD gera múltiplos vídeos renderizados a partir de diferentes trajetórias de câmera com uma consistência significativamente melhor do que as abordagens basais, conforme demonstrado em extensos experimentos. Página do projeto: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling high-quality videos to be generated from text prompts or images. Adding control to the video generation process is an important goal moving forward and recent approaches that condition video generation models on camera trajectories make strides towards it. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. Solutions to this multi-video generation problem could enable large-scale 3D scene generation with editable camera trajectories, among other applications. We introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines, as shown in extensive experiments. Project page: https://collaborativevideodiffusion.github.io/.
PDF120December 12, 2024