CoDance: un paradigma di slegamento-rilega per l'animazione robusta di più soggetti

Abstract

L'animazione di immagini di personaggi sta acquisendo un'importanza significativa in vari ambiti, spinta dalla domanda di rendering multi-soggetto robusto e flessibile. Sebbene i metodi esistenti eccellano nell'animazione di soggetti singoli, faticano a gestire numeri arbitrari di soggetti, tipi di personaggi diversi e disallineamenti spaziali tra l'immagine di riferimento e le pose guida. Attribuiamo queste limitazioni a un vincolo spaziale eccessivamente rigido che impone un allineamento pixel-pixel stretto tra la posa e il riferimento, e a un'incapacità di riassociare coerentemente il movimento ai soggetti desiderati. Per affrontare queste sfide, proponiamo CoDance, un nuovo framework Unbind-Rebind che abilita l'animazione di numeri arbitrari di soggetti, tipi e configurazioni spaziali condizionata da una singola sequenza di pose, potenzialmente disallineata. Nello specifico, il modulo Unbind utilizza un innovativo codificatore di spostamento delle pose (pose shift encoder) per rompere il rigido vincolo spaziale tra la posa e il riferimento introducendo perturbazioni stocastiche sia alle pose che alle loro caratteristiche latenti, costringendo così il modello ad apprendere una rappresentazione del movimento indipendente dalla posizione. Per garantire un controllo preciso e l'associazione ai soggetti, abbiamo quindi ideato un modulo Rebind, che sfrutta la guida semantica dei prompt testuali e la guida spaziale delle maschere dei soggetti per indirizzare il movimento appreso verso i personaggi desiderati. Inoltre, per facilitare una valutazione completa, introduciamo un nuovo benchmark multi-soggetto, CoDanceBench. Esperimenti estensivi su CoDanceBench e dataset esistenti mostrano che CoDance raggiunge prestazioni all'avanguardia (SOTA), dimostrando una notevole generalizzazione su soggetti diversi e layout spaziali vari. Il codice e i pesi del modello saranno resi open-source.

English

Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.

CoDance: un paradigma di slegamento-rilega per l'animazione robusta di più soggetti

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

Abstract

Support