DreamActor-M1: Animação Holística, Expressiva e Robusta de Imagens Humanas com Orientação Híbrida
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
April 2, 2025
Autores: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI
Resumo
Embora métodos recentes de animação humana baseada em imagens alcancem sínteses realistas de movimentos corporais e faciais, lacunas críticas permanecem em termos de controlabilidade holística de granularidade fina, adaptabilidade em múltiplas escalas e coerência temporal de longo prazo, o que resulta em menor expressividade e robustez. Propomos um framework baseado em transformadores de difusão (DiT), o DreamActor-M1, com orientação híbrida para superar essas limitações. Para orientação de movimento, nossos sinais de controle híbridos que integram representações faciais implícitas, esferas de cabeça 3D e esqueletos corporais 3D alcançam controle robusto de expressões faciais e movimentos corporais, ao mesmo tempo que produzem animações expressivas e que preservam a identidade. Para adaptação de escala, a fim de lidar com diversas poses corporais e escalas de imagem que variam de retratos a visões de corpo inteiro, empregamos uma estratégia de treinamento progressivo utilizando dados com resoluções e escalas variadas. Para orientação de aparência, integramos padrões de movimento de quadros sequenciais com referências visuais complementares, garantindo coerência temporal de longo prazo para regiões não vistas durante movimentos complexos. Experimentos demonstram que nosso método supera os trabalhos mais avançados, entregando resultados expressivos para geração de retratos, parte superior do corpo e corpo inteiro com consistência robusta de longo prazo. Página do Projeto: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and
facial motion synthesis, critical gaps remain in fine-grained holistic
controllability, multi-scale adaptability, and long-term temporal coherence,
which leads to their lower expressiveness and robustness. We propose a
diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid
guidance to overcome these limitations. For motion guidance, our hybrid control
signals that integrate implicit facial representations, 3D head spheres, and 3D
body skeletons achieve robust control of facial expressions and body movements,
while producing expressive and identity-preserving animations. For scale
adaptation, to handle various body poses and image scales ranging from
portraits to full-body views, we employ a progressive training strategy using
data with varying resolutions and scales. For appearance guidance, we integrate
motion patterns from sequential frames with complementary visual references,
ensuring long-term temporal coherence for unseen regions during complex
movements. Experiments demonstrate that our method outperforms the
state-of-the-art works, delivering expressive results for portraits,
upper-body, and full-body generation with robust long-term consistency. Project
Page: https://grisoon.github.io/DreamActor-M1/.Summary
AI-Generated Summary