VidCRAFT3: Control de Cámara, Objetos e Iluminación para la Generación de Imagen a Video
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
Autores: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
Resumen
Los métodos recientes de generación de imágenes a video han demostrado éxito al permitir el control sobre uno o dos elementos visuales, como la trayectoria de la cámara o el movimiento del objeto. Sin embargo, estos métodos no pueden ofrecer control sobre múltiples elementos visuales debido a limitaciones en los datos y la eficacia de la red. En este documento, presentamos VidCRAFT3, un marco novedoso para la generación precisa de imágenes a video que permite controlar simultáneamente el movimiento de la cámara, el movimiento del objeto y la dirección de iluminación. Para desacoplar mejor el control sobre cada elemento visual, proponemos el Transformador de Triple Atención Espacial, que integra la dirección de iluminación, texto e imagen de manera simétrica. Dado que la mayoría de los conjuntos de datos de video del mundo real carecen de anotaciones de iluminación, construimos un conjunto de datos de video sintético de alta calidad, el conjunto de datos de Dirección de Iluminación de Video (VLD). Este conjunto de datos incluye anotaciones de dirección de iluminación y objetos de apariencia diversa, lo que permite a VidCRAFT3 manejar de manera efectiva los fuertes efectos de transmisión y reflexión de la luz. Además, proponemos una estrategia de entrenamiento de tres etapas que elimina la necesidad de datos de entrenamiento anotados con múltiples elementos visuales (movimiento de cámara, movimiento de objeto y dirección de iluminación) simultáneamente. Experimentos extensos en conjuntos de datos de referencia demuestran la eficacia de VidCRAFT3 en la producción de contenido de video de alta calidad, superando a los métodos existentes de vanguardia en cuanto a la granularidad del control y la coherencia visual. Todo el código y los datos estarán disponibles públicamente. Página del proyecto: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.Summary
AI-Generated Summary