CoDance: Een Ontkoppel-Herkader Paradigma voor Robuuste Multi-Subject Animatie

Samenvatting

Karakterbeeldanimatie wint aanzienlijk aan belang in diverse domeinen, gedreven door de vraag naar robuuste en flexible weergave van meerdere onderwerpen. Hoewel bestaande methoden uitblinken in animatie van één persoon, hebben ze moeite met een willekeurig aantal onderwerpen, diverse karaktertypes en ruimtelijke uitlijning tussen de referentieafbeelding en de sturende poses. Wij schrijven deze beperkingen toe aan een te rigide ruimtelijke binding die een strikte pixelgewijze uitlijning tussen de pose en de referentie afdwingt, en een onvermogen om beweging consistent opnieuw te binden aan beoogde onderwerpen. Om deze uitdagingen aan te pakken, stellen we CoDance voor, een nieuw Unbind-Rebind raamwerk dat de animatie mogelijk maakt van een willekeurig aantal onderwerpen, types en ruimtelijke configuraties, geconditioneerd op een enkele, mogelijk niet-uitgelijnde posereeks. Specifiek gebruikt de Unbind-module een nieuwe pose shift encoder om de rigide ruimtelijke binding tussen de pose en de referentie te verbreken door stochastische perturbaties in te voeren op zowel poses als hun latente kenmerken, waardoor het model gedwongen wordt een locatie-onafhankelijke bewegingrepresentatie aan te leren. Om precieze controle en onderwerpassociatie te waarborgen, ontwerpen we vervolgens een Rebind-module die gebruikmaakt van semantische begeleiding vanuit tekstprompts en ruimtelijke begeleiding vanuit onderwerpmaskers om de aangeleerde beweging naar de beoogde karakters te dirigeren. Verder introduceren we, om uitgebreide evaluatie mogelijk te maken, een nieuwe multi-subject CoDanceBench. Uitgebreide experimenten op CoDanceBench en bestaande datasets tonen aan dat CoDance state-of-the-art prestaties bereikt, met een opmerkelijke generalisatie over diverse onderwerpen en ruimtelijke lay-outs. De code en gewichten zullen openbaar worden gemaakt.

English

Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.

CoDance: Een Ontkoppel-Herkader Paradigma voor Robuuste Multi-Subject Animatie

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

Samenvatting

Support