ChatPaper.aiChatPaper

SteadyDancer : Animation d'image humaine harmonisée et cohérente avec préservation de la première image

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

November 24, 2025
papers.authors: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI

papers.abstract

Préserver l'identité de la première image tout en assurant un contrôle précis du mouvement est un défi fondamental dans l'animation d'images humaines. Le processus de Liaison Image-Mouvement du paradigme dominant Référence-vers-Vidéo (R2V) néglige les désalignements spatio-temporels critiques courants dans les applications réelles, entraînant des échecs tels que la dérive d'identité et des artefacts visuels. Nous présentons SteadyDancer, un framework basé sur le paradigme Image-vers-Vidéo (I2V) qui réalise une animation harmonieuse et cohérente, et qui est le premier à garantir robustement la préservation de la première image. Premièrement, nous proposons un Mécanisme de Réconciliation des Conditions pour harmoniser les deux conditions conflictuelles, permettant un contrôle précis sans sacrifier la fidélité. Deuxièmement, nous concevons des Modules de Modulation de Pose Synergétiques pour générer une représentation de pose adaptative et cohérente, hautement compatible avec l'image de référence. Enfin, nous utilisons un Pipeline d'Entraînement à Objectifs Découplés et Échelonnés qui optimise hiérarchiquement le modèle pour la fidélité du mouvement, la qualité visuelle et la cohérence temporelle. Les expériences démontrent que SteadyDancer atteint des performances de pointe à la fois en fidélité d'apparence et en contrôle du mouvement, tout en nécessitant nettement moins de ressources d'entraînement que les méthodes comparables.
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.
PDF392December 1, 2025