Condutores de Imagem: Controlo de Precisão para Síntese de Vídeo Interativa
Image Conductor: Precision Control for Interactive Video Synthesis
June 21, 2024
Autores: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
cs.AI
Resumo
A produção cinematográfica e de animação frequentemente requer técnicas sofisticadas para coordenar transições de câmera e movimentos de objetos, geralmente envolvendo uma captura do mundo real intensiva em trabalho. Apesar dos avanços em IA generativa para a criação de vídeos, alcançar controle preciso sobre o movimento para a geração interativa de ativos de vídeo continua sendo um desafio. Nesse sentido, propomos o Image Conductor, um método para controle preciso de transições de câmera e movimentos de objetos para gerar ativos de vídeo a partir de uma única imagem. Uma estratégia de treinamento bem elaborada é proposta para separar o movimento distinto da câmera e do objeto por meio de pesos de LoRA de câmera e pesos de LoRA de objeto. Para lidar ainda mais com variações cinematográficas de trajetórias mal definidas, introduzimos uma técnica de orientação livre de câmera durante a inferência, aprimorando os movimentos dos objetos e eliminando transições de câmera. Além disso, desenvolvemos um pipeline de curadoria de dados de movimento de vídeo orientado por trajetória para treinamento. Experimentos quantitativos e qualitativos demonstram a precisão e o controle refinado de nosso método na geração de vídeos controláveis por movimento a partir de imagens, avançando a aplicação prática da síntese de vídeo interativo. Página do projeto disponível em https://liyaowei-stu.github.io/project/ImageConductor/
English
Filmmaking and animation production often require sophisticated techniques
for coordinating camera transitions and object movements, typically involving
labor-intensive real-world capturing. Despite advancements in generative AI for
video creation, achieving precise control over motion for interactive video
asset generation remains challenging. To this end, we propose Image Conductor,
a method for precise control of camera transitions and object movements to
generate video assets from a single image. An well-cultivated training strategy
is proposed to separate distinct camera and object motion by camera LoRA
weights and object LoRA weights. To further address cinematographic variations
from ill-posed trajectories, we introduce a camera-free guidance technique
during inference, enhancing object movements while eliminating camera
transitions. Additionally, we develop a trajectory-oriented video motion data
curation pipeline for training. Quantitative and qualitative experiments
demonstrate our method's precision and fine-grained control in generating
motion-controllable videos from images, advancing the practical application of
interactive video synthesis. Project webpage available at
https://liyaowei-stu.github.io/project/ImageConductor/