Motion-I2V: Geração Consistente e Controlável de Vídeo a partir de Imagem com Modelagem Explícita de Movimento
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
January 29, 2024
Autores: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
cs.AI
Resumo
Apresentamos o Motion-I2V, uma nova estrutura para geração consistente e controlável de vídeo a partir de imagens (I2V). Diferentemente de métodos anteriores que aprendem diretamente o mapeamento complexo de imagem para vídeo, o Motion-I2V divide o I2V em dois estágios com modelagem explícita de movimento. Para o primeiro estágio, propomos um preditor de campo de movimento baseado em difusão, que se concentra em deduzir as trajetórias dos pixels da imagem de referência. Para o segundo estágio, propomos uma atenção temporal aumentada por movimento para aprimorar a limitada atenção temporal unidimensional em modelos de difusão latente de vídeo. Esse módulo pode propagar efetivamente as características da imagem de referência para os quadros sintetizados com a orientação das trajetórias previstas no primeiro estágio. Em comparação com métodos existentes, o Motion-I2V pode gerar vídeos mais consistentes, mesmo na presença de grandes variações de movimento e ponto de vista. Ao treinar um ControlNet de trajetória esparsa para o primeiro estágio, o Motion-I2V permite que os usuários controlem com precisão as trajetórias e regiões de movimento com anotações esparsas de trajetória e região. Isso oferece maior controlabilidade do processo I2V do que depender apenas de instruções textuais. Além disso, o segundo estágio do Motion-I2V suporta naturalmente a tradução de vídeo para vídeo zero-shot. Comparações qualitativas e quantitativas demonstram as vantagens do Motion-I2V sobre abordagens anteriores na geração consistente e controlável de vídeo a partir de imagens.
English
We introduce Motion-I2V, a novel framework for consistent and controllable
image-to-video generation (I2V). In contrast to previous methods that directly
learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into
two stages with explicit motion modeling. For the first stage, we propose a
diffusion-based motion field predictor, which focuses on deducing the
trajectories of the reference image's pixels. For the second stage, we propose
motion-augmented temporal attention to enhance the limited 1-D temporal
attention in video latent diffusion models. This module can effectively
propagate reference image's feature to synthesized frames with the guidance of
predicted trajectories from the first stage. Compared with existing methods,
Motion-I2V can generate more consistent videos even at the presence of large
motion and viewpoint variation. By training a sparse trajectory ControlNet for
the first stage, Motion-I2V can support users to precisely control motion
trajectories and motion regions with sparse trajectory and region annotations.
This offers more controllability of the I2V process than solely relying on
textual instructions. Additionally, Motion-I2V's second stage naturally
supports zero-shot video-to-video translation. Both qualitative and
quantitative comparisons demonstrate the advantages of Motion-I2V over prior
approaches in consistent and controllable image-to-video generation.