Motion-I2V: Согласованная и управляемая генерация видео из изображений с явным моделированием движения
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
January 29, 2024
Авторы: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
cs.AI
Аннотация
Мы представляем Motion-I2V, новый фреймворк для согласованной и управляемой генерации видео из изображений (I2V). В отличие от предыдущих методов, которые напрямую изучают сложное отображение изображения в видео, Motion-I2V разделяет I2V на два этапа с явным моделированием движения. На первом этапе мы предлагаем диффузионный предсказатель поля движения, который фокусируется на определении траекторий пикселей исходного изображения. На втором этапе мы предлагаем временное внимание, дополненное информацией о движении, чтобы усилить ограниченное одномерное временное внимание в моделях латентной диффузии для видео. Этот модуль эффективно распространяет признаки исходного изображения на синтезированные кадры с учетом предсказанных траекторий с первого этапа. По сравнению с существующими методами, Motion-I2V способен генерировать более согласованные видео даже при наличии значительных изменений движения и точки обзора. Обучая разреженный ControlNet для траекторий на первом этапе, Motion-I2V позволяет пользователям точно управлять траекториями движения и областями с помощью разреженных аннотаций траекторий и областей. Это обеспечивает большую управляемость процесса I2V по сравнению с использованием только текстовых инструкций. Кроме того, второй этап Motion-I2V естественным образом поддерживает zero-shot перевод видео в видео. Качественные и количественные сравнения демонстрируют преимущества Motion-I2V перед предыдущими подходами в согласованной и управляемой генерации видео из изображений.
English
We introduce Motion-I2V, a novel framework for consistent and controllable
image-to-video generation (I2V). In contrast to previous methods that directly
learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into
two stages with explicit motion modeling. For the first stage, we propose a
diffusion-based motion field predictor, which focuses on deducing the
trajectories of the reference image's pixels. For the second stage, we propose
motion-augmented temporal attention to enhance the limited 1-D temporal
attention in video latent diffusion models. This module can effectively
propagate reference image's feature to synthesized frames with the guidance of
predicted trajectories from the first stage. Compared with existing methods,
Motion-I2V can generate more consistent videos even at the presence of large
motion and viewpoint variation. By training a sparse trajectory ControlNet for
the first stage, Motion-I2V can support users to precisely control motion
trajectories and motion regions with sparse trajectory and region annotations.
This offers more controllability of the I2V process than solely relying on
textual instructions. Additionally, Motion-I2V's second stage naturally
supports zero-shot video-to-video translation. Both qualitative and
quantitative comparisons demonstrate the advantages of Motion-I2V over prior
approaches in consistent and controllable image-to-video generation.