DreamActor-M1: Целостная, выразительная и устойчивая анимация изображений человека с гибридным управлением
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
April 2, 2025
Авторы: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI
Аннотация
Хотя современные методы анимации человека на основе изображений достигают реалистичного синтеза движений тела и лица, остаются существенные пробелы в детализированной целостной управляемости, многоуровневой адаптивности и долгосрочной временной согласованности, что снижает их выразительность и устойчивость. Мы предлагаем основанную на диффузионном трансформере (DiT) архитектуру DreamActor-M1 с гибридным управлением для преодоления этих ограничений. Для управления движением наши гибридные управляющие сигналы, объединяющие неявные представления лица, 3D-сферы головы и 3D-скелеты тела, обеспечивают устойчивый контроль над мимикой и движениями тела, создавая выразительные анимации с сохранением идентичности. Для адаптации к масштабу, чтобы справляться с различными позами тела и масштабами изображений — от портретов до полного обзора тела, — мы используем прогрессивную стратегию обучения на данных с различными разрешениями и масштабами. Для управления внешним видом мы интегрируем паттерны движения из последовательных кадров с дополнительными визуальными ссылками, обеспечивая долгосрочную временную согласованность для невидимых областей во время сложных движений. Эксперименты показывают, что наш метод превосходит современные подходы, демонстрируя выразительные результаты для генерации портретов, верхней части тела и полного обзора тела с устойчивой долгосрочной согласованностью. Страница проекта: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and
facial motion synthesis, critical gaps remain in fine-grained holistic
controllability, multi-scale adaptability, and long-term temporal coherence,
which leads to their lower expressiveness and robustness. We propose a
diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid
guidance to overcome these limitations. For motion guidance, our hybrid control
signals that integrate implicit facial representations, 3D head spheres, and 3D
body skeletons achieve robust control of facial expressions and body movements,
while producing expressive and identity-preserving animations. For scale
adaptation, to handle various body poses and image scales ranging from
portraits to full-body views, we employ a progressive training strategy using
data with varying resolutions and scales. For appearance guidance, we integrate
motion patterns from sequential frames with complementary visual references,
ensuring long-term temporal coherence for unseen regions during complex
movements. Experiments demonstrate that our method outperforms the
state-of-the-art works, delivering expressive results for portraits,
upper-body, and full-body generation with robust long-term consistency. Project
Page: https://grisoon.github.io/DreamActor-M1/.Summary
AI-Generated Summary