Cinemo : Animation d'image cohérente et contrôlable avec des modèles de diffusion de mouvement
Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
July 22, 2024
Auteurs: Xin Ma, Yaohui Wang, Gengyu Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao
cs.AI
Résumé
Les modèles de diffusion ont réalisé des progrès significatifs dans l'animation d'images grâce à leurs puissantes capacités génératives. Cependant, maintenir une cohérence spatio-temporelle avec les informations détaillées de l'image statique d'entrée au fil du temps (par exemple, le style, l'arrière-plan et l'objet de l'image statique d'entrée) et assurer une fluidité dans les récits vidéo animés guidés par des invites textuelles reste un défi. Dans cet article, nous présentons Cinemo, une nouvelle approche d'animation d'images visant à obtenir une meilleure contrôlabilité du mouvement, ainsi qu'une plus grande cohérence et fluidité temporelles. En général, nous proposons trois stratégies efficaces aux étapes d'entraînement et d'inférence de Cinemo pour atteindre notre objectif. À l'étape d'entraînement, Cinemo se concentre sur l'apprentissage de la distribution des résidus de mouvement, plutôt que de prédire directement les étapes suivantes via un modèle de diffusion de mouvement. De plus, une stratégie basée sur l'indice de similarité structurelle est proposée pour permettre à Cinemo d'avoir une meilleure contrôlabilité de l'intensité du mouvement. À l'étape d'inférence, une technique de raffinement du bruit basée sur la transformation en cosinus discrète est introduite pour atténuer les changements brusques de mouvement. Ces trois stratégies permettent à Cinemo de produire des résultats hautement cohérents, fluides et contrôlables en termes de mouvement. Par rapport aux méthodes précédentes, Cinemo offre une contrôlabilité utilisateur plus simple et plus précise. Des expériences approfondies contre plusieurs méthodes de pointe, incluant à la fois des outils commerciaux et des approches de recherche, sur plusieurs métriques, démontrent l'efficacité et la supériorité de notre approche proposée.
English
Diffusion models have achieved great progress in image animation due to
powerful generative capabilities. However, maintaining spatio-temporal
consistency with detailed information from the input static image over time
(e.g., style, background, and object of the input static image) and ensuring
smoothness in animated video narratives guided by textual prompts still remains
challenging. In this paper, we introduce Cinemo, a novel image animation
approach towards achieving better motion controllability, as well as stronger
temporal consistency and smoothness. In general, we propose three effective
strategies at the training and inference stages of Cinemo to accomplish our
goal. At the training stage, Cinemo focuses on learning the distribution of
motion residuals, rather than directly predicting subsequent via a motion
diffusion model. Additionally, a structural similarity index-based strategy is
proposed to enable Cinemo to have better controllability of motion intensity.
At the inference stage, a noise refinement technique based on discrete cosine
transformation is introduced to mitigate sudden motion changes. Such three
strategies enable Cinemo to produce highly consistent, smooth, and
motion-controllable results. Compared to previous methods, Cinemo offers
simpler and more precise user controllability. Extensive experiments against
several state-of-the-art methods, including both commercial tools and research
approaches, across multiple metrics, demonstrate the effectiveness and
superiority of our proposed approach.Summary
AI-Generated Summary