ChatPaper.aiChatPaper

Motion-I2V: Generación consistente y controlable de video a partir de imágenes con modelado explícito de movimiento

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

January 29, 2024
Autores: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
cs.AI

Resumen

Presentamos Motion-I2V, un marco novedoso para la generación consistente y controlable de video a partir de imágenes (I2V). A diferencia de métodos anteriores que aprenden directamente el mapeo complejo de imagen a video, Motion-I2V descompone I2V en dos etapas con un modelado explícito de movimiento. Para la primera etapa, proponemos un predictor de campo de movimiento basado en difusión, que se enfoca en deducir las trayectorias de los píxeles de la imagen de referencia. Para la segunda etapa, proponemos una atención temporal aumentada con movimiento para mejorar la limitada atención temporal unidimensional en los modelos de difusión latente de video. Este módulo puede propagar efectivamente las características de la imagen de referencia a los fotogramas sintetizados con la guía de las trayectorias predichas en la primera etapa. En comparación con métodos existentes, Motion-I2V puede generar videos más consistentes incluso en presencia de grandes variaciones de movimiento y punto de vista. Al entrenar un ControlNet de trayectorias dispersas para la primera etapa, Motion-I2V permite a los usuarios controlar con precisión las trayectorias y regiones de movimiento mediante anotaciones de trayectorias y regiones dispersas. Esto ofrece mayor controlabilidad en el proceso I2V que depender únicamente de instrucciones textuales. Además, la segunda etapa de Motion-I2V soporta naturalmente la traducción de video a video en modo zero-shot. Tanto las comparaciones cualitativas como cuantitativas demuestran las ventajas de Motion-I2V sobre enfoques previos en la generación consistente y controlable de video a partir de imágenes.
English
We introduce Motion-I2V, a novel framework for consistent and controllable image-to-video generation (I2V). In contrast to previous methods that directly learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into two stages with explicit motion modeling. For the first stage, we propose a diffusion-based motion field predictor, which focuses on deducing the trajectories of the reference image's pixels. For the second stage, we propose motion-augmented temporal attention to enhance the limited 1-D temporal attention in video latent diffusion models. This module can effectively propagate reference image's feature to synthesized frames with the guidance of predicted trajectories from the first stage. Compared with existing methods, Motion-I2V can generate more consistent videos even at the presence of large motion and viewpoint variation. By training a sparse trajectory ControlNet for the first stage, Motion-I2V can support users to precisely control motion trajectories and motion regions with sparse trajectory and region annotations. This offers more controllability of the I2V process than solely relying on textual instructions. Additionally, Motion-I2V's second stage naturally supports zero-shot video-to-video translation. Both qualitative and quantitative comparisons demonstrate the advantages of Motion-I2V over prior approaches in consistent and controllable image-to-video generation.
PDF408December 15, 2024