DreamActor-M1: Animación de imágenes humanas holística, expresiva y robusta con guía híbrida
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
April 2, 2025
Autores: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI
Resumen
Si bien los métodos recientes de animación humana basada en imágenes logran una síntesis realista de movimientos corporales y faciales, persisten brechas críticas en la controlabilidad holística de grano fino, la adaptabilidad a múltiples escalas y la coherencia temporal a largo plazo, lo que resulta en una menor expresividad y robustez. Proponemos un marco basado en un transformador de difusión (DiT), DreamActor-M1, con guía híbrida para superar estas limitaciones. Para la guía de movimiento, nuestras señales de control híbridas que integran representaciones faciales implícitas, esferas de cabeza 3D y esqueletos corporales 3D logran un control robusto de expresiones faciales y movimientos corporales, mientras producen animaciones expresivas y que preservan la identidad. Para la adaptación de escala, con el fin de manejar diversas poses corporales y escalas de imagen que van desde retratos hasta vistas de cuerpo completo, empleamos una estrategia de entrenamiento progresivo utilizando datos con resoluciones y escalas variables. Para la guía de apariencia, integramos patrones de movimiento de marcos secuenciales con referencias visuales complementarias, asegurando coherencia temporal a largo plazo para regiones no vistas durante movimientos complejos. Los experimentos demuestran que nuestro método supera a los trabajos más avanzados, ofreciendo resultados expresivos para la generación de retratos, torso superior y cuerpo completo con una consistencia robusta a largo plazo. Página del proyecto: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and
facial motion synthesis, critical gaps remain in fine-grained holistic
controllability, multi-scale adaptability, and long-term temporal coherence,
which leads to their lower expressiveness and robustness. We propose a
diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid
guidance to overcome these limitations. For motion guidance, our hybrid control
signals that integrate implicit facial representations, 3D head spheres, and 3D
body skeletons achieve robust control of facial expressions and body movements,
while producing expressive and identity-preserving animations. For scale
adaptation, to handle various body poses and image scales ranging from
portraits to full-body views, we employ a progressive training strategy using
data with varying resolutions and scales. For appearance guidance, we integrate
motion patterns from sequential frames with complementary visual references,
ensuring long-term temporal coherence for unseen regions during complex
movements. Experiments demonstrate that our method outperforms the
state-of-the-art works, delivering expressive results for portraits,
upper-body, and full-body generation with robust long-term consistency. Project
Page: https://grisoon.github.io/DreamActor-M1/.Summary
AI-Generated Summary