ChatPaper.aiChatPaper

Motion-I2V : Génération cohérente et contrôlable d'images vers la vidéo avec modélisation explicite du mouvement

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

January 29, 2024
Auteurs: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
cs.AI

Résumé

Nous présentons Motion-I2V, un nouveau cadre pour la génération cohérente et contrôlée de vidéos à partir d'images (I2V). Contrairement aux méthodes précédentes qui apprennent directement la complexe correspondance image-vidéo, Motion-I2V décompose I2V en deux étapes avec une modélisation explicite du mouvement. Pour la première étape, nous proposons un prédicteur de champ de mouvement basé sur la diffusion, qui se concentre sur la déduction des trajectoires des pixels de l'image de référence. Pour la deuxième étape, nous proposons une attention temporelle augmentée par le mouvement pour améliorer l'attention temporelle unidimensionnelle limitée dans les modèles de diffusion latente vidéo. Ce module peut propager efficacement les caractéristiques de l'image de référence aux images synthétisées, guidé par les trajectoires prédites de la première étape. Par rapport aux méthodes existantes, Motion-I2V peut générer des vidéos plus cohérentes même en présence de mouvements importants et de variations de point de vue. En entraînant un ControlNet de trajectoire éparse pour la première étape, Motion-I2V permet aux utilisateurs de contrôler précisément les trajectoires et les régions de mouvement avec des annotations de trajectoire et de région éparses. Cela offre une plus grande contrôlabilité du processus I2V que la simple dépendance aux instructions textuelles. De plus, la deuxième étape de Motion-I2V supporte naturellement la traduction vidéo-à-vidéo en zero-shot. Les comparaisons qualitatives et quantitatives démontrent les avantages de Motion-I2V par rapport aux approches antérieures dans la génération cohérente et contrôlée de vidéos à partir d'images.
English
We introduce Motion-I2V, a novel framework for consistent and controllable image-to-video generation (I2V). In contrast to previous methods that directly learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into two stages with explicit motion modeling. For the first stage, we propose a diffusion-based motion field predictor, which focuses on deducing the trajectories of the reference image's pixels. For the second stage, we propose motion-augmented temporal attention to enhance the limited 1-D temporal attention in video latent diffusion models. This module can effectively propagate reference image's feature to synthesized frames with the guidance of predicted trajectories from the first stage. Compared with existing methods, Motion-I2V can generate more consistent videos even at the presence of large motion and viewpoint variation. By training a sparse trajectory ControlNet for the first stage, Motion-I2V can support users to precisely control motion trajectories and motion regions with sparse trajectory and region annotations. This offers more controllability of the I2V process than solely relying on textual instructions. Additionally, Motion-I2V's second stage naturally supports zero-shot video-to-video translation. Both qualitative and quantitative comparisons demonstrate the advantages of Motion-I2V over prior approaches in consistent and controllable image-to-video generation.
PDF408December 15, 2024