Conductor de Imágenes: Control de Precisión para la Síntesis Interactiva de Video
Image Conductor: Precision Control for Interactive Video Synthesis
June 21, 2024
Autores: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI
Resumen
La producción de cine y animación a menudo requiere técnicas sofisticadas para coordinar transiciones de cámara y movimientos de objetos, lo que típicamente implica capturas en el mundo real que demandan mucho trabajo. A pesar de los avances en la IA generativa para la creación de videos, lograr un control preciso sobre el movimiento para la generación interactiva de recursos de video sigue siendo un desafío. Con este fin, proponemos Image Conductor, un método para el control preciso de transiciones de cámara y movimientos de objetos para generar recursos de video a partir de una sola imagen. Se propone una estrategia de entrenamiento bien desarrollada para separar los movimientos distintivos de la cámara y los objetos mediante pesos LoRA de cámara y pesos LoRA de objeto. Para abordar además las variaciones cinematográficas derivadas de trayectorias mal planteadas, introducimos una técnica de guía sin cámara durante la inferencia, mejorando los movimientos de los objetos mientras se eliminan las transiciones de cámara. Adicionalmente, desarrollamos una canalización de curación de datos de movimiento de video orientada a trayectorias para el entrenamiento. Los experimentos cuantitativos y cualitativos demuestran la precisión y el control detallado de nuestro método en la generación de videos controlables en movimiento a partir de imágenes, avanzando en la aplicación práctica de la síntesis interactiva de video. Página del proyecto disponible en https://liyaowei-stu.github.io/project/ImageConductor/.
English
Filmmaking and animation production often require sophisticated techniques
for coordinating camera transitions and object movements, typically involving
labor-intensive real-world capturing. Despite advancements in generative AI for
video creation, achieving precise control over motion for interactive video
asset generation remains challenging. To this end, we propose Image Conductor,
a method for precise control of camera transitions and object movements to
generate video assets from a single image. An well-cultivated training strategy
is proposed to separate distinct camera and object motion by camera LoRA
weights and object LoRA weights. To further address cinematographic variations
from ill-posed trajectories, we introduce a camera-free guidance technique
during inference, enhancing object movements while eliminating camera
transitions. Additionally, we develop a trajectory-oriented video motion data
curation pipeline for training. Quantitative and qualitative experiments
demonstrate our method's precision and fine-grained control in generating
motion-controllable videos from images, advancing the practical application of
interactive video synthesis. Project webpage available at
https://liyaowei-stu.github.io/project/ImageConductor/Summary
AI-Generated Summary