CoDance: 강력한 다중 대상 애니메이션을 위한 언바인드-리바인드 패러다임
CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation
January 16, 2026
저자: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao
cs.AI
초록
캐릭터 이미지 애니메이션은 강력하고 유연한 다중 대상 렌더링에 대한 수요에 힘입어 다양한 분야에서 그 중요성이 부각되고 있다. 기존 방법들은 단일 인물 애니메이션에서는 뛰어난 성능을 보이지만, 임의의 대상 수와 다양한 캐릭터 유형을 처리하고 참조 이미지와 구동 자세 간의 공간적 불일치를 해결하는 데 어려움을 겪는다. 우리는 이러한 한계를 자세와 참조 간의 엄격한 픽셀 단위 정렬을 강제하는 지나치게 경직된 공간 바인딩과 의도된 대상으로 모션을 일관되게 재바인딩하지 못하는 데서 기인한다고 본다. 이러한 문제를 해결하기 위해 우리는 단일(잠재적으로 정렬되지 않은) 자세 시퀀스에 기반하여 임의의 대상 수, 유형 및 공간 구성을 애니메이션할 수 있는 새로운 Unbind-Rebind 프레임워크인 CoDance를 제안한다. 구체적으로, Unbind 모듈은 새로운 자세 이동 인코더를 사용하여 자세와 잠재 특징 모두에 확률적 섭동을 도입함으로써 자세와 참조 간의 경직된 공간 바인딩을 해제하여 모델이 위치에 구애받지 않는 모션 표현을 학습하도록 유도한다. 정밀한 제어와 대상 연관성을 보장하기 위해, 우리는 학습된 모션을 의도된 캐릭터로 유도하기 위해 텍스트 프롬프트의 의미론적 지침과 대상 마스크의 공간적 지침을 활용하는 Rebind 모듈을 고안하였다. 더 나아가 포괄적인 평가를 위해 새로운 다중 대상 벤치마크인 CoDanceBench를 도입하였다. CoDanceBench와 기존 데이터셋에 대한 광범위한 실험을 통해 CoDance가 SOTA 성능을 달성하며 다양한 대상과 공간 배치에 걸쳐 놀라운 일반화 능력을 보여줌을 확인했다. 코드와 가중치는 공개될 예정이다.
English
Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.