Cinemo : Animation d'image cohérente et contrôlable avec des modèles de diffusion de mouvement

papers.abstract

Les modèles de diffusion ont réalisé des progrès significatifs dans l'animation d'images grâce à leurs puissantes capacités génératives. Cependant, maintenir une cohérence spatio-temporelle avec les informations détaillées de l'image statique d'entrée au fil du temps (par exemple, le style, l'arrière-plan et l'objet de l'image statique d'entrée) et assurer une fluidité dans les récits vidéo animés guidés par des invites textuelles reste un défi. Dans cet article, nous présentons Cinemo, une nouvelle approche d'animation d'images visant à obtenir une meilleure contrôlabilité du mouvement, ainsi qu'une plus grande cohérence et fluidité temporelles. En général, nous proposons trois stratégies efficaces aux étapes d'entraînement et d'inférence de Cinemo pour atteindre notre objectif. À l'étape d'entraînement, Cinemo se concentre sur l'apprentissage de la distribution des résidus de mouvement, plutôt que de prédire directement les étapes suivantes via un modèle de diffusion de mouvement. De plus, une stratégie basée sur l'indice de similarité structurelle est proposée pour permettre à Cinemo d'avoir une meilleure contrôlabilité de l'intensité du mouvement. À l'étape d'inférence, une technique de raffinement du bruit basée sur la transformation en cosinus discrète est introduite pour atténuer les changements brusques de mouvement. Ces trois stratégies permettent à Cinemo de produire des résultats hautement cohérents, fluides et contrôlables en termes de mouvement. Par rapport aux méthodes précédentes, Cinemo offre une contrôlabilité utilisateur plus simple et plus précise. Des expériences approfondies contre plusieurs méthodes de pointe, incluant à la fois des outils commerciaux et des approches de recherche, sur plusieurs métriques, démontrent l'efficacité et la supériorité de notre approche proposée.

English

Diffusion models have achieved great progress in image animation due to powerful generative capabilities. However, maintaining spatio-temporal consistency with detailed information from the input static image over time (e.g., style, background, and object of the input static image) and ensuring smoothness in animated video narratives guided by textual prompts still remains challenging. In this paper, we introduce Cinemo, a novel image animation approach towards achieving better motion controllability, as well as stronger temporal consistency and smoothness. In general, we propose three effective strategies at the training and inference stages of Cinemo to accomplish our goal. At the training stage, Cinemo focuses on learning the distribution of motion residuals, rather than directly predicting subsequent via a motion diffusion model. Additionally, a structural similarity index-based strategy is proposed to enable Cinemo to have better controllability of motion intensity. At the inference stage, a noise refinement technique based on discrete cosine transformation is introduced to mitigate sudden motion changes. Such three strategies enable Cinemo to produce highly consistent, smooth, and motion-controllable results. Compared to previous methods, Cinemo offers simpler and more precise user controllability. Extensive experiments against several state-of-the-art methods, including both commercial tools and research approaches, across multiple metrics, demonstrate the effectiveness and superiority of our proposed approach.

Cinemo : Animation d'image cohérente et contrôlable avec des modèles de diffusion de mouvement

Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models

papers.abstract

Support