Image Conductor: Controllo di Precisione per la Sintesi Video Interattiva
Image Conductor: Precision Control for Interactive Video Synthesis
June 21, 2024
Autori: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI
Abstract
La produzione cinematografica e di animazione richiede spesso tecniche sofisticate per coordinare le transizioni della telecamera e i movimenti degli oggetti, tipicamente coinvolgendo una cattura nel mondo reale ad alta intensità di lavoro. Nonostante i progressi nell'IA generativa per la creazione di video, ottenere un controllo preciso sul movimento per la generazione interattiva di asset video rimane una sfida. A tal fine, proponiamo Image Conductor, un metodo per il controllo preciso delle transizioni della telecamera e dei movimenti degli oggetti per generare asset video da una singola immagine. Viene proposta una strategia di addestramento ben calibrata per separare i movimenti distinti della telecamera e degli oggetti attraverso pesi LoRA della telecamera e pesi LoRA degli oggetti. Per affrontare ulteriormente le variazioni cinematografiche derivanti da traiettorie mal poste, introduciamo una tecnica di guida senza telecamera durante l'inferenza, migliorando i movimenti degli oggetti mentre eliminiamo le transizioni della telecamera. Inoltre, sviluppiamo una pipeline di curatela dei dati di movimento video orientata alla traiettoria per l'addestramento. Esperimenti quantitativi e qualitativi dimostrano la precisione e il controllo fine del nostro metodo nella generazione di video controllabili nel movimento da immagini, avanzando l'applicazione pratica della sintesi video interattiva. Pagina del progetto disponibile all'indirizzo https://liyaowei-stu.github.io/project/ImageConductor/.
English
Filmmaking and animation production often require sophisticated techniques
for coordinating camera transitions and object movements, typically involving
labor-intensive real-world capturing. Despite advancements in generative AI for
video creation, achieving precise control over motion for interactive video
asset generation remains challenging. To this end, we propose Image Conductor,
a method for precise control of camera transitions and object movements to
generate video assets from a single image. An well-cultivated training strategy
is proposed to separate distinct camera and object motion by camera LoRA
weights and object LoRA weights. To further address cinematographic variations
from ill-posed trajectories, we introduce a camera-free guidance technique
during inference, enhancing object movements while eliminating camera
transitions. Additionally, we develop a trajectory-oriented video motion data
curation pipeline for training. Quantitative and qualitative experiments
demonstrate our method's precision and fine-grained control in generating
motion-controllable videos from images, advancing the practical application of
interactive video synthesis. Project webpage available at
https://liyaowei-stu.github.io/project/ImageConductor/