Condutores de Imagem: Controlo de Precisão para Síntese de Vídeo Interativa

Resumo

A produção cinematográfica e de animação frequentemente requer técnicas sofisticadas para coordenar transições de câmera e movimentos de objetos, geralmente envolvendo uma captura do mundo real intensiva em trabalho. Apesar dos avanços em IA generativa para a criação de vídeos, alcançar controle preciso sobre o movimento para a geração interativa de ativos de vídeo continua sendo um desafio. Nesse sentido, propomos o Image Conductor, um método para controle preciso de transições de câmera e movimentos de objetos para gerar ativos de vídeo a partir de uma única imagem. Uma estratégia de treinamento bem elaborada é proposta para separar o movimento distinto da câmera e do objeto por meio de pesos de LoRA de câmera e pesos de LoRA de objeto. Para lidar ainda mais com variações cinematográficas de trajetórias mal definidas, introduzimos uma técnica de orientação livre de câmera durante a inferência, aprimorando os movimentos dos objetos e eliminando transições de câmera. Além disso, desenvolvemos um pipeline de curadoria de dados de movimento de vídeo orientado por trajetória para treinamento. Experimentos quantitativos e qualitativos demonstram a precisão e o controle refinado de nosso método na geração de vídeos controláveis por movimento a partir de imagens, avançando a aplicação prática da síntese de vídeo interativo. Página do projeto disponível em https://liyaowei-stu.github.io/project/ImageConductor/

English

Filmmaking and animation production often require sophisticated techniques for coordinating camera transitions and object movements, typically involving labor-intensive real-world capturing. Despite advancements in generative AI for video creation, achieving precise control over motion for interactive video asset generation remains challenging. To this end, we propose Image Conductor, a method for precise control of camera transitions and object movements to generate video assets from a single image. An well-cultivated training strategy is proposed to separate distinct camera and object motion by camera LoRA weights and object LoRA weights. To further address cinematographic variations from ill-posed trajectories, we introduce a camera-free guidance technique during inference, enhancing object movements while eliminating camera transitions. Additionally, we develop a trajectory-oriented video motion data curation pipeline for training. Quantitative and qualitative experiments demonstrate our method's precision and fine-grained control in generating motion-controllable videos from images, advancing the practical application of interactive video synthesis. Project webpage available at https://liyaowei-stu.github.io/project/ImageConductor/

Condutores de Imagem: Controlo de Precisão para Síntese de Vídeo Interativa

Image Conductor: Precision Control for Interactive Video Synthesis

Resumo

Support