VidCRAFT3: Controle de Câmera, Objeto e Iluminação para Geração de Imagem para Vídeo

Resumo

Métodos recentes de geração de imagem para vídeo têm demonstrado sucesso ao permitir o controle sobre um ou dois elementos visuais, como trajetória da câmera ou movimento do objeto. No entanto, esses métodos não conseguem oferecer controle sobre múltiplos elementos visuais devido a limitações nos dados e eficácia da rede. Neste artigo, apresentamos o VidCRAFT3, um novo framework para geração precisa de imagem para vídeo que possibilita o controle simultâneo sobre o movimento da câmera, movimento do objeto e direção da iluminação. Para melhor desacoplar o controle sobre cada elemento visual, propomos o Transformador de Atenção Tripla Espacial, que integra direção da iluminação, texto e imagem de forma simétrica. Como a maioria dos conjuntos de dados de vídeo do mundo real não possui anotações de iluminação, construímos um conjunto de dados de vídeo sintético de alta qualidade, o conjunto de dados VideoLightingDirection (VLD). Este conjunto de dados inclui anotações de direção da iluminação e objetos com aparências diversas, permitindo que o VidCRAFT3 lide eficazmente com fortes efeitos de transmissão e reflexão de luz. Além disso, propomos uma estratégia de treinamento em três etapas que elimina a necessidade de dados de treinamento anotados com múltiplos elementos visuais (movimento da câmera, movimento do objeto e direção da iluminação) simultaneamente. Experimentos extensivos em conjuntos de dados de referência demonstram a eficácia do VidCRAFT3 na produção de conteúdo de vídeo de alta qualidade, superando os métodos existentes de última geração em termos de granularidade de controle e coerência visual. Todo o código e dados estarão disponíveis publicamente. Página do projeto: https://sixiaozheng.github.io/VidCRAFT3/.

English

Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.

VidCRAFT3: Controle de Câmera, Objeto e Iluminação para Geração de Imagem para Vídeo

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Resumo

Support