ChatPaper.aiChatPaper

VidCRAFT3 : Contrôle de la caméra, des objets et de l'éclairage pour la génération d'images vers vidéo

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

February 11, 2025
Auteurs: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI

Résumé

Les méthodes récentes de génération d'images en vidéo ont démontré leur succès en permettant le contrôle sur un ou deux éléments visuels, tels que la trajectoire de la caméra ou le mouvement des objets. Cependant, ces méthodes ne parviennent pas à offrir un contrôle sur plusieurs éléments visuels en raison de limitations liées aux données et à l'efficacité du réseau. Dans cet article, nous présentons VidCRAFT3, un nouveau cadre pour la génération précise d'images en vidéo qui permet le contrôle simultané de la trajectoire de la caméra, du mouvement des objets et de la direction de l'éclairage. Pour mieux découpler le contrôle de chaque élément visuel, nous proposons le Transformateur à Triple Attention Spatiale, qui intègre de manière symétrique la direction de l'éclairage, le texte et l'image. Étant donné que la plupart des ensembles de données vidéo du monde réel manquent d'annotations sur l'éclairage, nous avons construit un ensemble de données vidéo synthétiques de haute qualité, l'ensemble de données VideoLightingDirection (VLD). Cet ensemble de données comprend des annotations sur la direction de l'éclairage et des objets d'apparence diversifiée, permettant à VidCRAFT3 de gérer efficacement les effets de forte transmission de lumière et de réflexion. De plus, nous proposons une stratégie d'entraînement en trois étapes qui élimine le besoin de données d'entraînement annotées avec plusieurs éléments visuels simultanément (trajectoire de la caméra, mouvement des objets et direction de l'éclairage). Des expériences approfondies sur des ensembles de données de référence démontrent l'efficacité de VidCRAFT3 dans la production de contenus vidéo de haute qualité, surpassant les méthodes existantes de pointe en termes de granularité de contrôle et de cohérence visuelle. Tout le code et les données seront publiquement disponibles. Page du projet : https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.

Summary

AI-Generated Summary

PDF133February 12, 2025