ChatPaper.aiChatPaper

CoDance: Парадигма «отсоединение-повторное связывание» для надежной анимации нескольких объектов

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

January 16, 2026
Авторы: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao
cs.AI

Аннотация

Анимация изображений персонажей приобретает значительную важность в различных областях, что обусловлено спросом на надежный и гибкий рендеринг множества объектов. Хотя существующие методы преуспевают в анимации одного человека, они сталкиваются с трудностями при обработке произвольного количества субъектов, разнообразных типов персонажей и пространственного несовпадения между эталонным изображением и управляющими позами. Мы объясняем эти ограничения чрезмерно жесткой пространственной привязкой, требующей строгого пиксельного соответствия между позой и эталоном, и неспособностью последовательно перепривязывать движение к целевым субъектам. Для решения этих задач мы предлагаем CoDance — новую структуру Unbind-Rebind, которая позволяет анимировать произвольное количество субъектов, их типы и пространственные конфигурации на основе единственной, потенциально невыровненной последовательности поз. В частности, модуль Unbind использует новый кодировщик сдвига поз, чтобы разорвать жесткую пространственную привязку между позой и эталоном за счет введения стохастических возмущений как в сами позы, так и в их латентные признаки, тем самым заставляя модель изучать позиционно-независимое представление движения. Для обеспечения точного управления и ассоциации с субъектами мы затем разрабатываем модуль Rebind, использующий семантические ориентиры из текстовых промптов и пространственные ориентиры из масок субъектов, чтобы направить изученное движение к целевым персонажам. Кроме того, для облегчения всесторонней оценки мы представляем новый многопользовательский бенчмарк CoDanceBench. Многочисленные эксперименты на CoDanceBench и существующих наборах данных показывают, что CoDance достигает состояния передовых методов (SOTA), демонстрируя выдающуюся обобщающую способность для разнообразных субъектов и пространственных компоновок. Код и веса модели будут открыты.
English
Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.
PDF52January 21, 2026