ChatPaper.aiChatPaper

CoDance: Un Paradigma de Desvincular y Revincular para una Animación Robusta de Múltiples Sujetos

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

January 16, 2026
Autores: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao
cs.AI

Resumen

La animación de imágenes de personajes está adquiriendo una importancia significativa en diversos ámbitos, impulsada por la demanda de representación multi-sujeto robusta y flexible. Si bien los métodos existentes sobresalen en la animación de un solo personaje, presentan dificultades para manejar cantidades arbitrarias de sujetos, diversos tipos de personajes y desalineación espacial entre la imagen de referencia y las poses conductoras. Atribuimos estas limitaciones a una vinculación espacial excesivamente rígida que fuerza una alineación estricta píxel a píxel entre la pose y la referencia, y a una incapacidad para revincular consistentemente el movimiento a los sujetos deseados. Para abordar estos desafíos, proponemos CoDance, un novedoso marco de trabajo Desvincular-Revincular que permite la animación de cantidades arbitrarias de sujetos, tipos y configuraciones espaciales condicionada por una única secuencia de poses, potencialmente desalineada. Específicamente, el módulo Desvincular emplea un novedoso codificador de desplazamiento de poses para romper la vinculación espacial rígida entre la pose y la referencia introduciendo perturbaciones estocásticas tanto en las poses como en sus características latentes, obligando así al modelo a aprender una representación del movimiento independiente de la ubicación. Para garantizar un control preciso y la asociación de sujetos, diseñamos luego un módulo Revincular, que aprovecha la guía semántica de textos descriptivos y la guía espacial de máscaras de sujetos para dirigir el movimiento aprendido a los personajes deseados. Además, para facilitar una evaluación exhaustiva, presentamos un nuevo benchmark multi-sujeto, CoDanceBench. Experimentos exhaustivos en CoDanceBench y conjuntos de datos existentes muestran que CoDance alcanza un rendimiento de vanguardia (SOTA), exhibiendo una generalización notable en diversos sujetos y disposiciones espaciales. El código y los pesos se publicarán como código abierto.
English
Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.
PDF52January 21, 2026