RealisDance-DiT : Une base simple mais robuste pour l'animation de personnages contrôlable en conditions réelles
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
April 21, 2025
Auteurs: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
cs.AI
Résumé
L'animation de personnages contrôlable reste un problème complexe, notamment en ce qui concerne la gestion de poses rares, de personnages stylisés, d'interactions entre personnages et objets, d'éclairages complexes et de scènes dynamiques. Pour résoudre ces problèmes, les travaux antérieurs se sont principalement concentrés sur l'injection de guidages de pose et d'apparence via des réseaux de contournement élaborés, mais peinent souvent à généraliser aux scénarios en monde ouvert. Dans cet article, nous proposons une nouvelle perspective selon laquelle, tant que le modèle de base est suffisamment puissant, des modifications simples du modèle combinées à des stratégies de fine-tuning flexibles peuvent largement relever ces défis, faisant ainsi un pas vers l'animation de personnages contrôlable en conditions réelles. Plus précisément, nous présentons RealisDance-DiT, construit sur le modèle de base vidéo Wan-2.1. Notre analyse approfondie révèle que la conception largement adoptée du Reference Net n'est pas optimale pour les modèles DiT à grande échelle. Au lieu de cela, nous démontrons que des modifications minimales de l'architecture du modèle de base produisent une base étonnamment solide. Nous proposons en outre les stratégies d'échauffement à faible bruit et de "grands lots et petites itérations" pour accélérer la convergence du modèle lors du fine-tuning tout en préservant au maximum les connaissances préalables du modèle de base. De plus, nous introduisons un nouveau jeu de données de test qui capture divers défis du monde réel, complétant les benchmarks existants tels que le dataset TikTok et le dataset de vidéos de mode UBC, afin d'évaluer de manière exhaustive la méthode proposée. Des expériences approfondies montrent que RealisDance-DiT surpasse de loin les méthodes existantes.
English
Controllable character animation remains a challenging problem, particularly
in handling rare poses, stylized characters, character-object interactions,
complex illumination, and dynamic scenes. To tackle these issues, prior work
has largely focused on injecting pose and appearance guidance via elaborate
bypass networks, but often struggles to generalize to open-world scenarios. In
this paper, we propose a new perspective that, as long as the foundation model
is powerful enough, straightforward model modifications with flexible
fine-tuning strategies can largely address the above challenges, taking a step
towards controllable character animation in the wild. Specifically, we
introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our
sufficient analysis reveals that the widely adopted Reference Net design is
suboptimal for large-scale DiT models. Instead, we demonstrate that minimal
modifications to the foundation model architecture yield a surprisingly strong
baseline. We further propose the low-noise warmup and "large batches and small
iterations" strategies to accelerate model convergence during fine-tuning while
maximally preserving the priors of the foundation model. In addition, we
introduce a new test dataset that captures diverse real-world challenges,
complementing existing benchmarks such as TikTok dataset and UBC fashion video
dataset, to comprehensively evaluate the proposed method. Extensive experiments
show that RealisDance-DiT outperforms existing methods by a large margin.Summary
AI-Generated Summary