RealisDance-DiT: Una linea di base semplice ma solida verso l'animazione controllata dei personaggi in contesti reali

Abstract

L'animazione controllata dei personaggi rimane un problema complesso, in particolare nella gestione di pose rare, personaggi stilizzati, interazioni tra personaggi e oggetti, illuminazione complessa e scene dinamiche. Per affrontare queste sfide, il lavoro precedente si è concentrato principalmente sull'iniezione di indicazioni relative alla posa e all'aspetto tramite reti di bypass elaborate, ma spesso fatica a generalizzare a scenari di mondo aperto. In questo articolo, proponiamo una nuova prospettiva: purché il modello di base sia sufficientemente potente, modifiche dirette al modello con strategie di fine-tuning flessibili possono affrontare in larga misura le sfide sopra citate, compiendo un passo verso l'animazione controllata dei personaggi in contesti reali. Nello specifico, introduciamo RealisDance-DiT, basato sul modello video di base Wan-2.1. La nostra analisi approfondita rivela che il design ampiamente adottato di Reference Net non è ottimale per i modelli DiT su larga scala. Al contrario, dimostriamo che modifiche minime all'architettura del modello di base producono una baseline sorprendentemente solida. Proponiamo inoltre le strategie di "riscaldamento a basso rumore" e "lotti grandi e iterazioni piccole" per accelerare la convergenza del modello durante il fine-tuning, preservando al massimo i priori del modello di base. In aggiunta, introduciamo un nuovo dataset di test che cattura diverse sfide del mondo reale, integrando benchmark esistenti come il dataset TikTok e il dataset UBC fashion video, per valutare in modo completo il metodo proposto. Esperimenti estensivi dimostrano che RealisDance-DiT supera di gran lunga i metodi esistenti.

English

Controllable character animation remains a challenging problem, particularly in handling rare poses, stylized characters, character-object interactions, complex illumination, and dynamic scenes. To tackle these issues, prior work has largely focused on injecting pose and appearance guidance via elaborate bypass networks, but often struggles to generalize to open-world scenarios. In this paper, we propose a new perspective that, as long as the foundation model is powerful enough, straightforward model modifications with flexible fine-tuning strategies can largely address the above challenges, taking a step towards controllable character animation in the wild. Specifically, we introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our sufficient analysis reveals that the widely adopted Reference Net design is suboptimal for large-scale DiT models. Instead, we demonstrate that minimal modifications to the foundation model architecture yield a surprisingly strong baseline. We further propose the low-noise warmup and "large batches and small iterations" strategies to accelerate model convergence during fine-tuning while maximally preserving the priors of the foundation model. In addition, we introduce a new test dataset that captures diverse real-world challenges, complementing existing benchmarks such as TikTok dataset and UBC fashion video dataset, to comprehensively evaluate the proposed method. Extensive experiments show that RealisDance-DiT outperforms existing methods by a large margin.

RealisDance-DiT: Una linea di base semplice ma solida verso l'animazione controllata dei personaggi in contesti reali

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

Abstract

Support