DreamActor-M1: Ganzheitliche, ausdrucksstarke und robuste Animation von menschlichen Bildern mit hybrider Steuerung
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
April 2, 2025
Autoren: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI
Zusammenfassung
Während aktuelle bildbasierte Methoden zur menschlichen Animation realistische Körper- und Gesichtsbewegungen erzeugen, bestehen weiterhin kritische Lücken in der fein abgestimmten ganzheitlichen Steuerbarkeit, der Multi-Skalen-Anpassungsfähigkeit und der langfristigen zeitlichen Kohärenz, was zu einer geringeren Ausdruckskraft und Robustheit führt. Wir schlagen ein auf Diffusionstransformatoren (DiT) basierendes Framework, DreamActor-M1, mit hybridem Guidance vor, um diese Einschränkungen zu überwinden. Für die Bewegungssteuerung erreichen unsere hybriden Kontrollsignale, die implizite Gesichtsrepräsentationen, 3D-Kopfkugeln und 3D-Körperskelette integrieren, eine robuste Kontrolle von Gesichtsausdrücken und Körperbewegungen, während sie ausdrucksstarke und identitätsbewahrende Animationen erzeugen. Für die Skalenanpassung verwenden wir eine progressive Trainingsstrategie mit Daten unterschiedlicher Auflösungen und Skalen, um verschiedene Körperhaltungen und Bildskalen von Porträts bis hin zu Ganzkörperansichten zu bewältigen. Für die Erscheinungssteuerung integrieren wir Bewegungsmuster aus sequenziellen Bildern mit ergänzenden visuellen Referenzen, um langfristige zeitliche Kohärenz für nicht sichtbare Bereiche während komplexer Bewegungen sicherzustellen. Experimente zeigen, dass unsere Methode den Stand der Technik übertrifft und ausdrucksstarke Ergebnisse für Porträts, Oberkörper- und Ganzkörpergenerierung mit robuster langfristiger Konsistenz liefert. Projektseite: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and
facial motion synthesis, critical gaps remain in fine-grained holistic
controllability, multi-scale adaptability, and long-term temporal coherence,
which leads to their lower expressiveness and robustness. We propose a
diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid
guidance to overcome these limitations. For motion guidance, our hybrid control
signals that integrate implicit facial representations, 3D head spheres, and 3D
body skeletons achieve robust control of facial expressions and body movements,
while producing expressive and identity-preserving animations. For scale
adaptation, to handle various body poses and image scales ranging from
portraits to full-body views, we employ a progressive training strategy using
data with varying resolutions and scales. For appearance guidance, we integrate
motion patterns from sequential frames with complementary visual references,
ensuring long-term temporal coherence for unseen regions during complex
movements. Experiments demonstrate that our method outperforms the
state-of-the-art works, delivering expressive results for portraits,
upper-body, and full-body generation with robust long-term consistency. Project
Page: https://grisoon.github.io/DreamActor-M1/.Summary
AI-Generated Summary