ChatPaper.aiChatPaper

RealisDance-DiT: Простой, но мощный базовый подход к управляемой анимации персонажей в реальных условиях

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

April 21, 2025
Авторы: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
cs.AI

Аннотация

Управляемая анимация персонажей остается сложной задачей, особенно в обработке редких поз, стилизованных персонажей, взаимодействий персонажей с объектами, сложного освещения и динамических сцен. Для решения этих проблем предыдущие работы в основном сосредотачивались на внедрении руководства по позам и внешнему виду через сложные обходные сети, но часто сталкивались с трудностями в обобщении на сценарии открытого мира. В данной статье мы предлагаем новый подход, согласно которому, если базовая модель достаточно мощная, простые модификации модели с гибкими стратегиями тонкой настройки могут в значительной степени решить вышеуказанные проблемы, делая шаг к управляемой анимации персонажей в реальных условиях. В частности, мы представляем RealisDance-DiT, построенную на основе видео-модели Wan-2.1. Наш подробный анализ показывает, что широко используемый дизайн Reference Net не является оптимальным для крупномасштабных моделей DiT. Вместо этого мы демонстрируем, что минимальные модификации архитектуры базовой модели дают удивительно сильный базовый уровень. Мы также предлагаем стратегии "низкошумного разогрева" и "больших пакетов и малых итераций" для ускорения сходимости модели во время тонкой настройки, максимально сохраняя приоритеты базовой модели. Кроме того, мы представляем новый тестовый набор данных, который охватывает разнообразные реальные вызовы, дополняя существующие бенчмарки, такие как набор данных TikTok и набор данных UBC fashion video, для всесторонней оценки предложенного метода. Многочисленные эксперименты показывают, что RealisDance-DiT значительно превосходит существующие методы.
English
Controllable character animation remains a challenging problem, particularly in handling rare poses, stylized characters, character-object interactions, complex illumination, and dynamic scenes. To tackle these issues, prior work has largely focused on injecting pose and appearance guidance via elaborate bypass networks, but often struggles to generalize to open-world scenarios. In this paper, we propose a new perspective that, as long as the foundation model is powerful enough, straightforward model modifications with flexible fine-tuning strategies can largely address the above challenges, taking a step towards controllable character animation in the wild. Specifically, we introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our sufficient analysis reveals that the widely adopted Reference Net design is suboptimal for large-scale DiT models. Instead, we demonstrate that minimal modifications to the foundation model architecture yield a surprisingly strong baseline. We further propose the low-noise warmup and "large batches and small iterations" strategies to accelerate model convergence during fine-tuning while maximally preserving the priors of the foundation model. In addition, we introduce a new test dataset that captures diverse real-world challenges, complementing existing benchmarks such as TikTok dataset and UBC fashion video dataset, to comprehensively evaluate the proposed method. Extensive experiments show that RealisDance-DiT outperforms existing methods by a large margin.

Summary

AI-Generated Summary

PDF92April 23, 2025