VidCRAFT3: Controle de Câmera, Objeto e Iluminação para Geração de Imagem para Vídeo
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
Autores: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
Resumo
Métodos recentes de geração de imagem para vídeo têm demonstrado sucesso ao permitir o controle sobre um ou dois elementos visuais, como trajetória da câmera ou movimento do objeto. No entanto, esses métodos não conseguem oferecer controle sobre múltiplos elementos visuais devido a limitações nos dados e eficácia da rede. Neste artigo, apresentamos o VidCRAFT3, um novo framework para geração precisa de imagem para vídeo que possibilita o controle simultâneo sobre o movimento da câmera, movimento do objeto e direção da iluminação. Para melhor desacoplar o controle sobre cada elemento visual, propomos o Transformador de Atenção Tripla Espacial, que integra direção da iluminação, texto e imagem de forma simétrica. Como a maioria dos conjuntos de dados de vídeo do mundo real não possui anotações de iluminação, construímos um conjunto de dados de vídeo sintético de alta qualidade, o conjunto de dados VideoLightingDirection (VLD). Este conjunto de dados inclui anotações de direção da iluminação e objetos com aparências diversas, permitindo que o VidCRAFT3 lide eficazmente com fortes efeitos de transmissão e reflexão de luz. Além disso, propomos uma estratégia de treinamento em três etapas que elimina a necessidade de dados de treinamento anotados com múltiplos elementos visuais (movimento da câmera, movimento do objeto e direção da iluminação) simultaneamente. Experimentos extensivos em conjuntos de dados de referência demonstram a eficácia do VidCRAFT3 na produção de conteúdo de vídeo de alta qualidade, superando os métodos existentes de última geração em termos de granularidade de controle e coerência visual. Todo o código e dados estarão disponíveis publicamente. Página do projeto: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.Summary
AI-Generated Summary