VidCRAFT3: Camera-, Object- en Verlichtingsbesturing voor Beeld-naar-Video Generatie

Samenvatting

Recente methoden voor het genereren van afbeeldingen naar video hebben succes aangetoond in het mogelijk maken van controle over één of twee visuele elementen, zoals cameratraject of objectbeweging. Deze methoden zijn echter niet in staat om controle te bieden over meerdere visuele elementen vanwege beperkingen in gegevens en netwerkefficiëntie. In dit artikel introduceren we VidCRAFT3, een nieuw raamwerk voor nauwkeurige beeld-naar-video generatie dat gelijktijdige controle mogelijk maakt over camerabeweging, objectbeweging en lichtrichting. Om de controle over elk visueel element beter te scheiden, stellen we de Ruimtelijke Drievoudige-Aandacht Transformer voor, die op een symmetrische manier lichtrichting, tekst en afbeelding integreert. Aangezien de meeste video-datasets in de echte wereld geen lichtannotaties hebben, construeren we een hoogwaardige synthetische video-dataset, de VideoLichtrichting (VLD) dataset. Deze dataset bevat lichtrichting annotaties en objecten met diverse verschijningen, waardoor VidCRAFT3 effectief sterke lichttransmissie- en reflectie-effecten kan verwerken. Daarnaast stellen we een drie-fasen trainingsstrategie voor die de noodzaak voor trainingsgegevens geannoteerd met meerdere visuele elementen (camerabeweging, objectbeweging en lichtrichting) tegelijkertijd elimineert. Uitgebreide experimenten op benchmark datasets tonen de doeltreffendheid van VidCRAFT3 aan bij het produceren van hoogwaardige videomateriaal, waarbij bestaande state-of-the-art methoden worden overtroffen op het gebied van controlegranulariteit en visuele samenhang. Alle code en gegevens zullen openbaar beschikbaar zijn. Projectpagina: https://sixiaozheng.github.io/VidCRAFT3/.

English

Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.

VidCRAFT3: Camera-, Object- en Verlichtingsbesturing voor Beeld-naar-Video Generatie

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Samenvatting

Support