ChatPaper.aiChatPaper

Beeldregisseur: Nauwkeurige besturing voor interactieve videosynthese

Image Conductor: Precision Control for Interactive Video Synthesis

June 21, 2024
Auteurs: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI

Samenvatting

Filmmaking en animatieproductie vereisen vaak geavanceerde technieken voor het coördineren van cameratransities en objectbewegingen, wat meestal arbeidsintensieve opnames in de echte wereld met zich meebrengt. Ondanks vooruitgang in generatieve AI voor videoproductie, blijft het bereiken van precieze controle over beweging voor interactieve videogeneratie een uitdaging. Daarom stellen we Image Conductor voor, een methode voor precieze controle van cameratransities en objectbewegingen om video-assets te genereren vanuit een enkele afbeelding. Een goed doordachte trainingsstrategie wordt voorgesteld om verschillende camera- en objectbewegingen te scheiden door middel van camera LoRA-gewichten en object LoRA-gewichten. Om cinematografische variaties van slecht gedefinieerde trajecten verder aan te pakken, introduceren we een camera-vrije begeleidingstechniek tijdens de inferentie, waardoor objectbewegingen worden verbeterd terwijl cameratransities worden geëlimineerd. Daarnaast ontwikkelen we een trajectgeoriënteerde pijplijn voor het cureren van videobewegingsdata voor training. Kwantitatieve en kwalitatieve experimenten demonstreren de precisie en fijnmazige controle van onze methode bij het genereren van beweging-controleerbare video's vanuit afbeeldingen, wat de praktische toepassing van interactieve videosynthese bevordert. Projectwebpagina beschikbaar op https://liyaowei-stu.github.io/project/ImageConductor/
English
Filmmaking and animation production often require sophisticated techniques for coordinating camera transitions and object movements, typically involving labor-intensive real-world capturing. Despite advancements in generative AI for video creation, achieving precise control over motion for interactive video asset generation remains challenging. To this end, we propose Image Conductor, a method for precise control of camera transitions and object movements to generate video assets from a single image. An well-cultivated training strategy is proposed to separate distinct camera and object motion by camera LoRA weights and object LoRA weights. To further address cinematographic variations from ill-posed trajectories, we introduce a camera-free guidance technique during inference, enhancing object movements while eliminating camera transitions. Additionally, we develop a trajectory-oriented video motion data curation pipeline for training. Quantitative and qualitative experiments demonstrate our method's precision and fine-grained control in generating motion-controllable videos from images, advancing the practical application of interactive video synthesis. Project webpage available at https://liyaowei-stu.github.io/project/ImageConductor/
PDF93November 29, 2024