VidCRAFT3: Controllo della telecamera, degli oggetti e dell'illuminazione per la generazione di video da immagine.
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
Autori: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
Abstract
I metodi recenti di generazione immagine-video hanno dimostrato successo nel consentire il controllo su uno o due elementi visivi, come la traiettoria della telecamera o il movimento degli oggetti. Tuttavia, questi metodi non sono in grado di offrire controllo su più elementi visivi a causa di limitazioni nei dati e nell'efficacia della rete. In questo articolo, presentiamo VidCRAFT3, un nuovo framework per la generazione precisa di immagine-video che consente il controllo simultaneo del movimento della telecamera, del movimento degli oggetti e della direzione dell'illuminazione. Per decuplicare meglio il controllo su ciascun elemento visivo, proponiamo il Trasformatore di Tripla Attenzione Spaziale, che integra la direzione dell'illuminazione, il testo e l'immagine in modo simmetrico. Poiché la maggior parte dei dataset video del mondo reale manca di annotazioni sull'illuminazione, costruiamo un dataset video sintetico di alta qualità, il dataset VideoLightingDirection (VLD). Questo dataset include annotazioni sulla direzione dell'illuminazione e oggetti di aspetto diverso, consentendo a VidCRAFT3 di gestire efficacemente forti effetti di trasmissione e riflessione della luce. Inoltre, proponiamo una strategia di addestramento a tre fasi che elimina la necessità di dati di addestramento annotati con più elementi visivi contemporaneamente (movimento della telecamera, movimento degli oggetti e direzione dell'illuminazione). Estesi esperimenti su dataset di riferimento dimostrano l'efficacia di VidCRAFT3 nella produzione di contenuti video di alta qualità, superando i metodi all'avanguardia esistenti in termini di granularità di controllo e coerenza visiva. Tutto il codice e i dati saranno disponibili pubblicamente. Pagina del progetto: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.Summary
AI-Generated Summary