Image Conductor : Contrôle de précision pour la synthèse vidéo interactive
Image Conductor: Precision Control for Interactive Video Synthesis
June 21, 2024
Auteurs: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI
Résumé
La réalisation de films et la production d'animation nécessitent souvent des techniques sophistiquées pour coordonner les transitions de caméra et les mouvements d'objets, impliquant généralement une capture en monde réel laborieuse. Malgré les avancées de l'IA générative pour la création vidéo, obtenir un contrôle précis du mouvement pour la génération interactive d'assets vidéo reste un défi. À cette fin, nous proposons Image Conductor, une méthode permettant un contrôle précis des transitions de caméra et des mouvements d'objets pour générer des assets vidéo à partir d'une seule image. Une stratégie d'entraînement bien élaborée est proposée pour séparer les mouvements distincts de la caméra et des objets via des poids LoRA pour la caméra et des poids LoRA pour les objets. Pour mieux gérer les variations cinématographiques issues de trajectoires mal posées, nous introduisons une technique de guidage sans caméra lors de l'inférence, améliorant les mouvements d'objets tout en éliminant les transitions de caméra. De plus, nous développons un pipeline de curation de données de mouvement vidéo orienté trajectoire pour l'entraînement. Les expériences quantitatives et qualitatives démontrent la précision et le contrôle granulaire de notre méthode dans la génération de vidéos contrôlables en mouvement à partir d'images, faisant progresser l'application pratique de la synthèse vidéo interactive. Page web du projet disponible à l'adresse https://liyaowei-stu.github.io/project/ImageConductor/
English
Filmmaking and animation production often require sophisticated techniques
for coordinating camera transitions and object movements, typically involving
labor-intensive real-world capturing. Despite advancements in generative AI for
video creation, achieving precise control over motion for interactive video
asset generation remains challenging. To this end, we propose Image Conductor,
a method for precise control of camera transitions and object movements to
generate video assets from a single image. An well-cultivated training strategy
is proposed to separate distinct camera and object motion by camera LoRA
weights and object LoRA weights. To further address cinematographic variations
from ill-posed trajectories, we introduce a camera-free guidance technique
during inference, enhancing object movements while eliminating camera
transitions. Additionally, we develop a trajectory-oriented video motion data
curation pipeline for training. Quantitative and qualitative experiments
demonstrate our method's precision and fine-grained control in generating
motion-controllable videos from images, advancing the practical application of
interactive video synthesis. Project webpage available at
https://liyaowei-stu.github.io/project/ImageConductor/Summary
AI-Generated Summary