Motion-I2V: Generazione Consistente e Controllabile da Immagine a Video con Modellazione Esplicita del Movimento

Abstract

Presentiamo Motion-I2V, un nuovo framework per la generazione coerente e controllabile di video da immagini (I2V). A differenza dei metodi precedenti che apprendono direttamente la complessa mappatura immagine-video, Motion-I2V scompone I2V in due fasi con una modellazione esplicita del movimento. Per la prima fase, proponiamo un predittore di campi di movimento basato su diffusione, che si concentra sul dedurre le traiettorie dei pixel dell'immagine di riferimento. Per la seconda fase, proponiamo un'attenzione temporale arricchita dal movimento per potenziare la limitata attenzione temporale unidimensionale nei modelli di diffusione latente per video. Questo modulo può propagare efficacemente le caratteristiche dell'immagine di riferimento ai fotogrammi sintetizzati con la guida delle traiettorie predette dalla prima fase. Rispetto ai metodi esistenti, Motion-I2V può generare video più coerenti anche in presenza di grandi variazioni di movimento e punto di vista. Addestrando un ControlNet per traiettorie sparse nella prima fase, Motion-I2V consente agli utenti di controllare con precisione le traiettorie e le regioni di movimento tramite annotazioni di traiettorie e regioni sparse. Ciò offre una maggiore controllabilità del processo I2V rispetto al fare affidamento esclusivo su istruzioni testuali. Inoltre, la seconda fase di Motion-I2V supporta naturalmente la traduzione video-video zero-shot. Confronti qualitativi e quantitativi dimostrano i vantaggi di Motion-I2V rispetto agli approcci precedenti nella generazione coerente e controllabile di video da immagini.

English

We introduce Motion-I2V, a novel framework for consistent and controllable image-to-video generation (I2V). In contrast to previous methods that directly learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into two stages with explicit motion modeling. For the first stage, we propose a diffusion-based motion field predictor, which focuses on deducing the trajectories of the reference image's pixels. For the second stage, we propose motion-augmented temporal attention to enhance the limited 1-D temporal attention in video latent diffusion models. This module can effectively propagate reference image's feature to synthesized frames with the guidance of predicted trajectories from the first stage. Compared with existing methods, Motion-I2V can generate more consistent videos even at the presence of large motion and viewpoint variation. By training a sparse trajectory ControlNet for the first stage, Motion-I2V can support users to precisely control motion trajectories and motion regions with sparse trajectory and region annotations. This offers more controllability of the I2V process than solely relying on textual instructions. Additionally, Motion-I2V's second stage naturally supports zero-shot video-to-video translation. Both qualitative and quantitative comparisons demonstrate the advantages of Motion-I2V over prior approaches in consistent and controllable image-to-video generation.

Motion-I2V: Generazione Consistente e Controllabile da Immagine a Video con Modellazione Esplicita del Movimento

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

Abstract

Support