Beeldregisseur: Nauwkeurige besturing voor interactieve videosynthese
Image Conductor: Precision Control for Interactive Video Synthesis
June 21, 2024
Auteurs: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI
Samenvatting
Filmmaking en animatieproductie vereisen vaak geavanceerde technieken
voor het coördineren van cameratransities en objectbewegingen, wat meestal
arbeidsintensieve opnames in de echte wereld met zich meebrengt. Ondanks
vooruitgang in generatieve AI voor videoproductie, blijft het bereiken van
precieze controle over beweging voor interactieve videogeneratie een uitdaging.
Daarom stellen we Image Conductor voor, een methode voor precieze controle van
cameratransities en objectbewegingen om video-assets te genereren vanuit een
enkele afbeelding. Een goed doordachte trainingsstrategie wordt voorgesteld om
verschillende camera- en objectbewegingen te scheiden door middel van camera
LoRA-gewichten en object LoRA-gewichten. Om cinematografische variaties van
slecht gedefinieerde trajecten verder aan te pakken, introduceren we een
camera-vrije begeleidingstechniek tijdens de inferentie, waardoor objectbewegingen
worden verbeterd terwijl cameratransities worden geëlimineerd. Daarnaast
ontwikkelen we een trajectgeoriënteerde pijplijn voor het cureren van
videobewegingsdata voor training. Kwantitatieve en kwalitatieve experimenten
demonstreren de precisie en fijnmazige controle van onze methode bij het
genereren van beweging-controleerbare video's vanuit afbeeldingen, wat de
praktische toepassing van interactieve videosynthese bevordert. Projectwebpagina
beschikbaar op https://liyaowei-stu.github.io/project/ImageConductor/
English
Filmmaking and animation production often require sophisticated techniques
for coordinating camera transitions and object movements, typically involving
labor-intensive real-world capturing. Despite advancements in generative AI for
video creation, achieving precise control over motion for interactive video
asset generation remains challenging. To this end, we propose Image Conductor,
a method for precise control of camera transitions and object movements to
generate video assets from a single image. An well-cultivated training strategy
is proposed to separate distinct camera and object motion by camera LoRA
weights and object LoRA weights. To further address cinematographic variations
from ill-posed trajectories, we introduce a camera-free guidance technique
during inference, enhancing object movements while eliminating camera
transitions. Additionally, we develop a trajectory-oriented video motion data
curation pipeline for training. Quantitative and qualitative experiments
demonstrate our method's precision and fine-grained control in generating
motion-controllable videos from images, advancing the practical application of
interactive video synthesis. Project webpage available at
https://liyaowei-stu.github.io/project/ImageConductor/