ChatPaper.aiChatPaper

DreamActor-M1: Holistische, expressieve en robuuste animatie van menselijke beelden met hybride begeleiding

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

April 2, 2025
Auteurs: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI

Samenvatting

Hoewel recente beeldgebaseerde methoden voor menselijke animatie realistische lichaams- en gezichtsbewegingen kunnen synthetiseren, blijven er kritieke tekortkomingen bestaan op het gebied van fijnmazige holistische bestuurbaarheid, multi-schaal aanpassingsvermogen en langetermijntemporele samenhang, wat leidt tot een lagere expressiviteit en robuustheid. Wij stellen een op een diffusie-transformer (DiT) gebaseerd framework voor, DreamActor-M1, met hybride begeleiding om deze beperkingen te overwinnen. Voor bewegingsbegeleiding zorgen onze hybride controlesignalen, die impliciete gezichtsrepresentaties, 3D-hoofdbolletjes en 3D-lichaamsskeletten integreren, voor robuuste controle van gezichtsuitdrukkingen en lichaamsbewegingen, terwijl expressieve en identiteit-behoudende animaties worden geproduceerd. Voor schaalaanpassing hanteren we een progressieve trainingsstrategie met gegevens van verschillende resoluties en schalen om diverse lichaamshoudingen en beeldschalen, variërend van portretten tot volledige lichaamsweergaven, te kunnen verwerken. Voor uiterlijkbegeleiding integreren we bewegingspatronen uit opeenvolgende frames met aanvullende visuele referenties, waardoor langetermijntemporele samenhang wordt gewaarborgd voor onzichtbare gebieden tijdens complexe bewegingen. Experimenten tonen aan dat onze methode de state-of-the-art werken overtreft en expressieve resultaten levert voor portretten, bovenlichaam- en volledige lichaamsgeneratie met robuuste langetermijnconsistentie. Projectpagina: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

Summary

AI-Generated Summary

PDF657April 3, 2025