Cinemo: Animación de Imágenes Consistente y Controlable con Modelos de Difusión de Movimiento
Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
July 22, 2024
Autores: Xin Ma, Yaohui Wang, Gengyu Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao
cs.AI
Resumen
Los modelos de difusión han logrado un gran avance en la animación de imágenes debido a sus potentes capacidades generativas. Sin embargo, mantener la consistencia espacio-temporal con información detallada de la imagen estática de entrada a lo largo del tiempo (por ejemplo, estilo, fondo y objeto de la imagen estática de entrada) y garantizar la suavidad en las narrativas de video animadas guiadas por indicaciones textuales sigue siendo un desafío. En este documento, presentamos Cinemo, un enfoque novedoso de animación de imágenes que busca lograr una mejor controlabilidad del movimiento, así como una mayor consistencia temporal y suavidad. En general, proponemos tres estrategias efectivas en las etapas de entrenamiento e inferencia de Cinemo para alcanzar nuestro objetivo. En la etapa de entrenamiento, Cinemo se enfoca en aprender la distribución de residuos de movimiento, en lugar de predecir directamente lo siguiente a través de un modelo de difusión de movimiento. Además, se propone una estrategia basada en el índice de similitud estructural para permitir que Cinemo tenga una mejor controlabilidad de la intensidad del movimiento. En la etapa de inferencia, se introduce una técnica de refinamiento de ruido basada en la transformación discreta del coseno para mitigar cambios repentinos de movimiento. Estas tres estrategias permiten que Cinemo produzca resultados altamente consistentes, suaves y controlables en términos de movimiento. En comparación con métodos anteriores, Cinemo ofrece una controlabilidad del usuario más simple y precisa. Experimentos extensos contra varios métodos de vanguardia, incluyendo herramientas comerciales y enfoques de investigación, a través de múltiples métricas, demuestran la efectividad y superioridad de nuestro enfoque propuesto.
English
Diffusion models have achieved great progress in image animation due to
powerful generative capabilities. However, maintaining spatio-temporal
consistency with detailed information from the input static image over time
(e.g., style, background, and object of the input static image) and ensuring
smoothness in animated video narratives guided by textual prompts still remains
challenging. In this paper, we introduce Cinemo, a novel image animation
approach towards achieving better motion controllability, as well as stronger
temporal consistency and smoothness. In general, we propose three effective
strategies at the training and inference stages of Cinemo to accomplish our
goal. At the training stage, Cinemo focuses on learning the distribution of
motion residuals, rather than directly predicting subsequent via a motion
diffusion model. Additionally, a structural similarity index-based strategy is
proposed to enable Cinemo to have better controllability of motion intensity.
At the inference stage, a noise refinement technique based on discrete cosine
transformation is introduced to mitigate sudden motion changes. Such three
strategies enable Cinemo to produce highly consistent, smooth, and
motion-controllable results. Compared to previous methods, Cinemo offers
simpler and more precise user controllability. Extensive experiments against
several state-of-the-art methods, including both commercial tools and research
approaches, across multiple metrics, demonstrate the effectiveness and
superiority of our proposed approach.Summary
AI-Generated Summary