RealisDance-DiT: Ein einfacher, aber leistungsstarker Ansatz für kontrollierbare Charakteranimation in realen Umgebungen
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
April 21, 2025
Autoren: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
cs.AI
Zusammenfassung
Die kontrollierbare Charakteranimation bleibt eine herausfordernde Aufgabe, insbesondere bei der Handhabung seltener Posen, stilisierten Charakteren, Charakter-Objekt-Interaktionen, komplexer Beleuchtung und dynamischen Szenen. Um diese Probleme zu bewältigen, haben sich frühere Arbeiten weitgehend darauf konzentriert, Pose- und Erscheinungsführung durch aufwendige Bypass-Netzwerke einzubinden, scheitern jedoch oft daran, auf offene Weltszenarien zu verallgemeinern. In diesem Artikel schlagen wir eine neue Perspektive vor, wonach, solange das Basismodell leistungsstark genug ist, einfache Modifikationen des Modells mit flexiblen Feinabstimmungsstrategien die oben genannten Herausforderungen weitgehend bewältigen können, was einen Schritt in Richtung kontrollierbarer Charakteranimation in der freien Wildbahn darstellt. Konkret stellen wir RealisDance-DiT vor, das auf dem Wan-2.1-Video-Basismodell aufbaut. Unsere umfassende Analyse zeigt, dass das weit verbreitete Reference-Net-Design für großskalige DiT-Modelle suboptimal ist. Stattdessen demonstrieren wir, dass minimale Modifikationen an der Architektur des Basismodells eine überraschend starke Basislinie ergeben. Wir schlagen weiterhin die Low-Noise-Warmup-Strategie und die Strategie „große Batches und kleine Iterationen“ vor, um die Modellkonvergenz während der Feinabstimmung zu beschleunigen und gleichzeitig die Prioritäten des Basismodells maximal zu bewahren. Zusätzlich führen wir einen neuen Testdatensatz ein, der diverse reale Herausforderungen erfasst und bestehende Benchmarks wie den TikTok-Datensatz und den UBC-Fashion-Video-Datensatz ergänzt, um die vorgeschlagene Methode umfassend zu evaluieren. Umfangreiche Experimente zeigen, dass RealisDance-DiT bestehende Methoden deutlich übertrifft.
English
Controllable character animation remains a challenging problem, particularly
in handling rare poses, stylized characters, character-object interactions,
complex illumination, and dynamic scenes. To tackle these issues, prior work
has largely focused on injecting pose and appearance guidance via elaborate
bypass networks, but often struggles to generalize to open-world scenarios. In
this paper, we propose a new perspective that, as long as the foundation model
is powerful enough, straightforward model modifications with flexible
fine-tuning strategies can largely address the above challenges, taking a step
towards controllable character animation in the wild. Specifically, we
introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our
sufficient analysis reveals that the widely adopted Reference Net design is
suboptimal for large-scale DiT models. Instead, we demonstrate that minimal
modifications to the foundation model architecture yield a surprisingly strong
baseline. We further propose the low-noise warmup and "large batches and small
iterations" strategies to accelerate model convergence during fine-tuning while
maximally preserving the priors of the foundation model. In addition, we
introduce a new test dataset that captures diverse real-world challenges,
complementing existing benchmarks such as TikTok dataset and UBC fashion video
dataset, to comprehensively evaluate the proposed method. Extensive experiments
show that RealisDance-DiT outperforms existing methods by a large margin.Summary
AI-Generated Summary