RealisDance-DiT: Una línea base simple pero sólida hacia la animación de personajes controlable en entornos no controlados

Resumen

La animación controlable de personajes sigue siendo un problema desafiante, particularmente en el manejo de poses poco comunes, personajes estilizados, interacciones entre personajes y objetos, iluminación compleja y escenas dinámicas. Para abordar estos problemas, trabajos previos se han centrado principalmente en inyectar guías de pose y apariencia a través de redes de derivación elaboradas, pero a menudo luchan por generalizar a escenarios de mundo abierto. En este artículo, proponemos una nueva perspectiva que, siempre que el modelo base sea lo suficientemente potente, modificaciones directas del modelo con estrategias de ajuste fino flexibles pueden abordar en gran medida los desafíos mencionados, dando un paso hacia la animación controlable de personajes en entornos no controlados. Específicamente, presentamos RealisDance-DiT, construido sobre el modelo base de video Wan-2.1. Nuestro análisis exhaustivo revela que el diseño ampliamente adoptado de Reference Net no es óptimo para modelos DiT a gran escala. En cambio, demostramos que modificaciones mínimas en la arquitectura del modelo base producen una línea base sorprendentemente sólida. Además, proponemos las estrategias de calentamiento de bajo ruido y "lotes grandes e iteraciones pequeñas" para acelerar la convergencia del modelo durante el ajuste fino, preservando al máximo los conocimientos previos del modelo base. Adicionalmente, introducimos un nuevo conjunto de datos de prueba que captura diversos desafíos del mundo real, complementando los benchmarks existentes como el conjunto de datos de TikTok y el conjunto de datos de videos de moda de UBC, para evaluar de manera integral el método propuesto. Experimentos extensos muestran que RealisDance-DiT supera ampliamente a los métodos existentes.

English

Controllable character animation remains a challenging problem, particularly in handling rare poses, stylized characters, character-object interactions, complex illumination, and dynamic scenes. To tackle these issues, prior work has largely focused on injecting pose and appearance guidance via elaborate bypass networks, but often struggles to generalize to open-world scenarios. In this paper, we propose a new perspective that, as long as the foundation model is powerful enough, straightforward model modifications with flexible fine-tuning strategies can largely address the above challenges, taking a step towards controllable character animation in the wild. Specifically, we introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our sufficient analysis reveals that the widely adopted Reference Net design is suboptimal for large-scale DiT models. Instead, we demonstrate that minimal modifications to the foundation model architecture yield a surprisingly strong baseline. We further propose the low-noise warmup and "large batches and small iterations" strategies to accelerate model convergence during fine-tuning while maximally preserving the priors of the foundation model. In addition, we introduce a new test dataset that captures diverse real-world challenges, complementing existing benchmarks such as TikTok dataset and UBC fashion video dataset, to comprehensively evaluate the proposed method. Extensive experiments show that RealisDance-DiT outperforms existing methods by a large margin.

RealisDance-DiT: Una línea base simple pero sólida hacia la animación de personajes controlable en entornos no controlados

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

Resumen

Support