RealisDance-DiT: 야생 환경에서 제어 가능한 캐릭터 애니메이션을 위한 간단하지만 강력한 베이스라인
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
April 21, 2025
저자: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
cs.AI
초록
제어 가능한 캐릭터 애니메이션은 여전히 어려운 문제로, 특히 희귀한 포즈, 스타일화된 캐릭터, 캐릭터-객체 상호작용, 복잡한 조명, 그리고 동적 장면을 처리하는 데 있어서 더욱 그러합니다. 이러한 문제를 해결하기 위해 기존 연구는 주로 정교한 바이패스 네트워크를 통해 포즈와 외형 지침을 주입하는 데 초점을 맞추었지만, 개방형 세계 시나리오로 일반화하는 데 어려움을 겪었습니다. 본 논문에서는 기반 모델이 충분히 강력하다면, 간단한 모델 수정과 유연한 미세 조정 전략으로 위의 문제를 크게 해결할 수 있다는 새로운 관점을 제안하며, 야생 환경에서의 제어 가능한 캐릭터 애니메이션을 향한 한 걸음을 내딛습니다. 구체적으로, 우리는 Wan-2.1 비디오 기반 모델을 기반으로 한 RealisDance-DiT를 소개합니다. 우리의 충분한 분석은 대규모 DiT 모델에 널리 채택된 Reference Net 설계가 최적이 아니라는 것을 보여줍니다. 대신, 기반 모델 아키텍처에 최소한의 수정을 가하는 것이 놀라울 정도로 강력한 베이스라인을 제공한다는 것을 입증합니다. 또한, 미세 조정 과정에서 모델 수렴을 가속화하면서 기반 모델의 사전 지식을 최대한 보존하기 위해 저잡음 워밍업과 "큰 배치와 작은 반복" 전략을 제안합니다. 더불어, 우리는 다양한 실제 세계의 도전 과제를 포착하는 새로운 테스트 데이터셋을 소개하여 TikTok 데이터셋과 UBC 패션 비디오 데이터셋과 같은 기존 벤치마크를 보완하고, 제안된 방법을 종합적으로 평가합니다. 광범위한 실험 결과, RealisDance-DiT는 기존 방법들을 큰 차이로 능가하는 성능을 보여줍니다.
English
Controllable character animation remains a challenging problem, particularly
in handling rare poses, stylized characters, character-object interactions,
complex illumination, and dynamic scenes. To tackle these issues, prior work
has largely focused on injecting pose and appearance guidance via elaborate
bypass networks, but often struggles to generalize to open-world scenarios. In
this paper, we propose a new perspective that, as long as the foundation model
is powerful enough, straightforward model modifications with flexible
fine-tuning strategies can largely address the above challenges, taking a step
towards controllable character animation in the wild. Specifically, we
introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our
sufficient analysis reveals that the widely adopted Reference Net design is
suboptimal for large-scale DiT models. Instead, we demonstrate that minimal
modifications to the foundation model architecture yield a surprisingly strong
baseline. We further propose the low-noise warmup and "large batches and small
iterations" strategies to accelerate model convergence during fine-tuning while
maximally preserving the priors of the foundation model. In addition, we
introduce a new test dataset that captures diverse real-world challenges,
complementing existing benchmarks such as TikTok dataset and UBC fashion video
dataset, to comprehensively evaluate the proposed method. Extensive experiments
show that RealisDance-DiT outperforms existing methods by a large margin.Summary
AI-Generated Summary