Motion-I2V: Generazione Consistente e Controllabile da Immagine a Video con Modellazione Esplicita del Movimento
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
January 29, 2024
Autori: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
cs.AI
Abstract
Presentiamo Motion-I2V, un nuovo framework per la generazione coerente e controllabile di video da immagini (I2V). A differenza dei metodi precedenti che apprendono direttamente la complessa mappatura immagine-video, Motion-I2V scompone I2V in due fasi con una modellazione esplicita del movimento. Per la prima fase, proponiamo un predittore di campi di movimento basato su diffusione, che si concentra sul dedurre le traiettorie dei pixel dell'immagine di riferimento. Per la seconda fase, proponiamo un'attenzione temporale arricchita dal movimento per potenziare la limitata attenzione temporale unidimensionale nei modelli di diffusione latente per video. Questo modulo può propagare efficacemente le caratteristiche dell'immagine di riferimento ai fotogrammi sintetizzati con la guida delle traiettorie predette dalla prima fase. Rispetto ai metodi esistenti, Motion-I2V può generare video più coerenti anche in presenza di grandi variazioni di movimento e punto di vista. Addestrando un ControlNet per traiettorie sparse nella prima fase, Motion-I2V consente agli utenti di controllare con precisione le traiettorie e le regioni di movimento tramite annotazioni di traiettorie e regioni sparse. Ciò offre una maggiore controllabilità del processo I2V rispetto al fare affidamento esclusivo su istruzioni testuali. Inoltre, la seconda fase di Motion-I2V supporta naturalmente la traduzione video-video zero-shot. Confronti qualitativi e quantitativi dimostrano i vantaggi di Motion-I2V rispetto agli approcci precedenti nella generazione coerente e controllabile di video da immagini.
English
We introduce Motion-I2V, a novel framework for consistent and controllable
image-to-video generation (I2V). In contrast to previous methods that directly
learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into
two stages with explicit motion modeling. For the first stage, we propose a
diffusion-based motion field predictor, which focuses on deducing the
trajectories of the reference image's pixels. For the second stage, we propose
motion-augmented temporal attention to enhance the limited 1-D temporal
attention in video latent diffusion models. This module can effectively
propagate reference image's feature to synthesized frames with the guidance of
predicted trajectories from the first stage. Compared with existing methods,
Motion-I2V can generate more consistent videos even at the presence of large
motion and viewpoint variation. By training a sparse trajectory ControlNet for
the first stage, Motion-I2V can support users to precisely control motion
trajectories and motion regions with sparse trajectory and region annotations.
This offers more controllability of the I2V process than solely relying on
textual instructions. Additionally, Motion-I2V's second stage naturally
supports zero-shot video-to-video translation. Both qualitative and
quantitative comparisons demonstrate the advantages of Motion-I2V over prior
approaches in consistent and controllable image-to-video generation.