ChatPaper.aiChatPaper

CoDance:ロバストなマルチサブジェクトアニメーションのためのアンバインド・リバインドパラダイム

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

January 16, 2026
著者: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao
cs.AI

要旨

キャラクター画像アニメーションは、頑健で柔軟なマルチサブジェクトレンダリングへの需要により、様々な領域でその重要性を増している。既存手法は単体人物のアニメーションでは優れた性能を発揮するが、任意の数のサブジェクト、多様なキャラクタータイプ、参照画像と駆動ポーズ間の空間的な位置ずれに対処することが困難である。我々はこれらの限界を、ポーズと参照画像間の厳密なピクセル単位の位置合わせを強制する過度に硬直した空間的バインディングと、意図したサブジェクトへのモーションの一貫した再バインディングの不能に起因すると考える。これらの課題に対処するため、我々はCoDanceを提案する。これは単一の(位置ずれのある可能性もある)ポーズ系列を条件として、任意の数のサブジェクト、タイプ、空間配置のアニメーションを可能にする新しいUnbind-Rebindフレームワークである。具体的には、Unbindモジュールは新規のポーズシフトエンコーダを採用し、ポーズとその潜在特徴の両方に確率的な摂動を導入することで、ポーズと参照画像間の硬直した空間的バインディングを打破し、モデルに位置に依存しないモーション表現を学習させる。正確な制御とサブジェクトの関連付けを確保するため、次にRebindモジュールを考案する。これはテキストプロンプトからの意味的ガイダンスとサブジェクトマスクからの空間的ガイダンスを活用して、学習されたモーションを意図したキャラクターに向けて誘導する。さらに、包括的な評価を可能にするため、新しいマルチサブジェクトベンチマークであるCoDanceBenchを導入する。CoDanceBenchおよび既存データセットにおける広範な実験により、CoDanceがSOTA性能を達成し、多様なサブジェクトと空間レイアウトにわたって顕著な汎化性能を示すことを確認した。コードと重みは公開予定である。
English
Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.
PDF52January 21, 2026