CoDance: Um Paradigma de Desvinculação e Revininculação para Animação Robusta de Múltiplos Sujeitos
CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation
January 16, 2026
Autores: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao
cs.AI
Resumo
A animação de imagens de personagens está ganhando importância significativa em vários domínios, impulsionada pela demanda por renderização robusta e flexível de múltiplos sujeitos. Embora os métodos existentes se destaquem na animação de pessoa única, eles lutam para lidar com contagens arbitrárias de sujeitos, tipos diversos de personagens e desalinhamento espacial entre a imagem de referência e as poses de condução. Atribuímos essas limitações a uma vinculação espacial excessivamente rígida que força um alinhamento pixel a pixel estrito entre a pose e a referência, e a uma incapacidade de revincular consistentemente o movimento aos sujeitos pretendidos. Para enfrentar esses desafios, propomos o CoDance, uma nova estrutura Unbind-Rebind (Desvincular-Revincular) que permite a animação de contagens arbitrárias de sujeitos, tipos e configurações espaciais condicionadas a uma única sequência de poses, potencialmente desalinhada. Especificamente, o módulo Unbind emprega um novo codificador de deslocamento de pose (pose shift encoder) para quebrar a vinculação espacial rígida entre a pose e a referência, introduzindo perturbações estocásticas tanto nas poses quanto em suas características latentes, forçando assim o modelo a aprender uma representação de movimento independente de localização. Para garantir controle preciso e associação de sujeitos, idealizamos então um módulo Rebind, aproveitando a orientação semântica de prompts de texto e a orientação espacial de máscaras de sujeito para direcionar o movimento aprendido para os personagens pretendidos. Além disso, para facilitar uma avaliação abrangente, introduzimos um novo benchmark multi-sujeito, o CoDanceBench. Experimentos extensivos no CoDanceBench e em conjuntos de dados existentes mostram que o CoDance alcança desempenho de estado da arte (SOTA), exibindo notável generalização em diversos sujeitos e layouts espaciais. O código e os pesos serão disponibilizados como código aberto.
English
Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.