ChatPaper.aiChatPaper

CoDance: Ein Unbind-Rebind-Paradigma für robuste Multi-Subject-Animation

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

January 16, 2026
papers.authors: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao
cs.AI

papers.abstract

Die Animation von Charakterbildern gewinnt in verschiedenen Bereichen zunehmend an Bedeutung, angetrieben durch die Nachfrage nach robustem und flexiblem Multi-Subject-Rendering. Während bestehende Methoden bei der Einzelpersonenanimation hervorragende Ergebnisse erzielen, haben sie Schwierigkeiten mit beliebigen Subjektanzahlen, unterschiedlichen Charaktertypen und räumlichen Fehlausrichtungen zwischen Referenzbild und antreibenden Posen. Wir führen diese Einschränkungen auf eine zu starre räumliche Bindung zurück, die eine strikte pixelgenaue Ausrichtung zwischen Pose und Referenz erzwingt, sowie auf die Unfähigkeit, Bewegung konsistent den intendierten Subjekten zuzuordnen. Um diese Herausforderungen zu bewältigen, schlagen wir CoDance vor, ein neuartiges Unbind-Rebind-Framework, das die Animation beliebiger Subjektanzahlen, -typen und räumlicher Konfigurationen auf Basis einer einzigen, potenziell fehlausgerichteten Posensequenz ermöglicht. Konkret verwendet das Unbind-Modul einen neuartigen Pose-Shift-Encoder, um die starre räumliche Bindung zwischen Pose und Referenz aufzubrechen, indem es stochastische Perturbationen sowohl auf Posen als auch deren latente Merkmale anwendet und das Modell so zwingt, eine positionsunabhängige Bewegungsrepräsentation zu erlernen. Um präzise Steuerung und Subjektzuordnung zu gewährleisten, entwickeln wir anschließend ein Rebind-Modul, das semantische Führung durch Textprompts und räumliche Führung durch Subjektmasken nutzt, um die gelernte Bewegung zu den intendierten Charakteren zu lenken. Darüber hinaus führen wir zur umfassenden Evaluation einen neuen Multi-Subject-CoDanceBench ein. Umfangreiche Experimente auf CoDanceBench und bestehenden Datensätzen zeigen, dass CoDance state-of-the-art Leistung erreicht und bemerkenswerte Generalisierungsfähigkeit über diverse Subjekte und räumliche Anordnungen hinweg aufweist. Der Code und die Gewichte werden quelloffen veröffentlicht.
English
Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.
PDF52January 21, 2026