Motion-I2V: Consistente en beheersbare beeld-naar-video-generatie met expliciete bewegingmodellering
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
January 29, 2024
Auteurs: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
cs.AI
Samenvatting
We introduceren Motion-I2V, een nieuw raamwerk voor consistente en controleerbare beeld-naar-video-generatie (I2V). In tegenstelling tot eerdere methoden die direct de complexe beeld-naar-video-mapping leren, factoriseert Motion-I2V I2V in twee fasen met expliciete bewegingsmodellering. Voor de eerste fase stellen we een op diffusie gebaseerde bewegingsveldvoorspeller voor, die zich richt op het afleiden van de trajecten van de pixels van het referentiebeeld. Voor de tweede fase introduceren we motion-augmented temporele aandacht om de beperkte 1-D temporele aandacht in video latent diffusiemodellen te versterken. Deze module kan effectief de kenmerken van het referentiebeeld doorgeven aan gesynthetiseerde frames met behulp van de voorspelde trajecten uit de eerste fase. In vergelijking met bestaande methoden kan Motion-I2V consistentere video's genereren, zelfs bij grote bewegingen en variaties in gezichtspunt. Door een sparse traject ControlNet te trainen voor de eerste fase, kan Motion-I2V gebruikers ondersteunen om bewegingsbanen en bewegingsregio's nauwkeurig te controleren met sparse traject- en regio-annotaties. Dit biedt meer controleerbaarheid van het I2V-proces dan alleen te vertrouwen op tekstuele instructies. Daarnaast ondersteunt de tweede fase van Motion-I2V van nature zero-shot video-naar-video-vertaling. Zowel kwalitatieve als kwantitatieve vergelijkingen tonen de voordelen van Motion-I2V aan ten opzichte van eerdere benaderingen in consistente en controleerbare beeld-naar-video-generatie.
English
We introduce Motion-I2V, a novel framework for consistent and controllable
image-to-video generation (I2V). In contrast to previous methods that directly
learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into
two stages with explicit motion modeling. For the first stage, we propose a
diffusion-based motion field predictor, which focuses on deducing the
trajectories of the reference image's pixels. For the second stage, we propose
motion-augmented temporal attention to enhance the limited 1-D temporal
attention in video latent diffusion models. This module can effectively
propagate reference image's feature to synthesized frames with the guidance of
predicted trajectories from the first stage. Compared with existing methods,
Motion-I2V can generate more consistent videos even at the presence of large
motion and viewpoint variation. By training a sparse trajectory ControlNet for
the first stage, Motion-I2V can support users to precisely control motion
trajectories and motion regions with sparse trajectory and region annotations.
This offers more controllability of the I2V process than solely relying on
textual instructions. Additionally, Motion-I2V's second stage naturally
supports zero-shot video-to-video translation. Both qualitative and
quantitative comparisons demonstrate the advantages of Motion-I2V over prior
approaches in consistent and controllable image-to-video generation.