VidCRAFT3: Camera-, Object- en Verlichtingsbesturing voor Beeld-naar-Video Generatie
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
Auteurs: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
Samenvatting
Recente methoden voor het genereren van afbeeldingen naar video hebben succes aangetoond in het mogelijk maken van controle over één of twee visuele elementen, zoals cameratraject of objectbeweging. Deze methoden zijn echter niet in staat om controle te bieden over meerdere visuele elementen vanwege beperkingen in gegevens en netwerkefficiëntie. In dit artikel introduceren we VidCRAFT3, een nieuw raamwerk voor nauwkeurige beeld-naar-video generatie dat gelijktijdige controle mogelijk maakt over camerabeweging, objectbeweging en lichtrichting. Om de controle over elk visueel element beter te scheiden, stellen we de Ruimtelijke Drievoudige-Aandacht Transformer voor, die op een symmetrische manier lichtrichting, tekst en afbeelding integreert. Aangezien de meeste video-datasets in de echte wereld geen lichtannotaties hebben, construeren we een hoogwaardige synthetische video-dataset, de VideoLichtrichting (VLD) dataset. Deze dataset bevat lichtrichting annotaties en objecten met diverse verschijningen, waardoor VidCRAFT3 effectief sterke lichttransmissie- en reflectie-effecten kan verwerken. Daarnaast stellen we een drie-fasen trainingsstrategie voor die de noodzaak voor trainingsgegevens geannoteerd met meerdere visuele elementen (camerabeweging, objectbeweging en lichtrichting) tegelijkertijd elimineert. Uitgebreide experimenten op benchmark datasets tonen de doeltreffendheid van VidCRAFT3 aan bij het produceren van hoogwaardige videomateriaal, waarbij bestaande state-of-the-art methoden worden overtroffen op het gebied van controlegranulariteit en visuele samenhang. Alle code en gegevens zullen openbaar beschikbaar zijn. Projectpagina: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.