RealisDance-DiT: Uma Linha de Base Simples, porém Eficaz para Animação de Personagens Controlável em Ambientes Diversos
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
April 21, 2025
Autores: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
cs.AI
Resumo
A animação controlável de personagens continua sendo um problema desafiador, especialmente no tratamento de poses raras, personagens estilizados, interações entre personagens e objetos, iluminação complexa e cenas dinâmicas. Para enfrentar esses desafios, trabalhos anteriores concentraram-se principalmente em injetar orientações de pose e aparência por meio de redes elaboradas de bypass, mas frequentemente lutam para generalizar em cenários de mundo aberto. Neste artigo, propomos uma nova perspectiva que, desde que o modelo de base seja suficientemente poderoso, modificações diretas no modelo com estratégias flexíveis de ajuste fino podem resolver amplamente os desafios mencionados, dando um passo em direção à animação controlável de personagens em cenários reais. Especificamente, introduzimos o RealisDance-DiT, construído sobre o modelo de base de vídeo Wan-2.1. Nossa análise detalhada revela que o design amplamente adotado da Reference Net é subótimo para modelos DiT em grande escala. Em vez disso, demonstramos que modificações mínimas na arquitetura do modelo de base resultam em uma linha de base surpreendentemente forte. Além disso, propomos as estratégias de aquecimento de baixo ruído e "grandes lotes e pequenas iterações" para acelerar a convergência do modelo durante o ajuste fino, preservando ao máximo os conhecimentos prévios do modelo de base. Adicionalmente, introduzimos um novo conjunto de dados de teste que captura diversos desafios do mundo real, complementando benchmarks existentes, como o conjunto de dados do TikTok e o conjunto de dados de vídeos de moda da UBC, para avaliar de forma abrangente o método proposto. Experimentos extensivos mostram que o RealisDance-DiT supera os métodos existentes por uma grande margem.
English
Controllable character animation remains a challenging problem, particularly
in handling rare poses, stylized characters, character-object interactions,
complex illumination, and dynamic scenes. To tackle these issues, prior work
has largely focused on injecting pose and appearance guidance via elaborate
bypass networks, but often struggles to generalize to open-world scenarios. In
this paper, we propose a new perspective that, as long as the foundation model
is powerful enough, straightforward model modifications with flexible
fine-tuning strategies can largely address the above challenges, taking a step
towards controllable character animation in the wild. Specifically, we
introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our
sufficient analysis reveals that the widely adopted Reference Net design is
suboptimal for large-scale DiT models. Instead, we demonstrate that minimal
modifications to the foundation model architecture yield a surprisingly strong
baseline. We further propose the low-noise warmup and "large batches and small
iterations" strategies to accelerate model convergence during fine-tuning while
maximally preserving the priors of the foundation model. In addition, we
introduce a new test dataset that captures diverse real-world challenges,
complementing existing benchmarks such as TikTok dataset and UBC fashion video
dataset, to comprehensively evaluate the proposed method. Extensive experiments
show that RealisDance-DiT outperforms existing methods by a large margin.Summary
AI-Generated Summary