SteadyDancer: Geharmoniseerde en coherente menselijke beeldanimatie met behoud van het eerste frame
SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation
November 24, 2025
Auteurs: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI
Samenvatting
Het behouden van identiteit in het eerste frame bij gelijktijdige waarborging van precieze bewegingscontrole is een fundamentele uitdaging in de animatie van menselijke beelden. Het Image-to-Motion Binding-proces van het dominante Reference-to-Video (R2V)-paradigma negeert kritieke spatio-temporele uitlijningfouten die vaak voorkomen in praktijktoepassingen, wat leidt tot problemen zoals identiteitsdrift en visuele artefacten. Wij introduceren SteadyDancer, een kader gebaseerd op het Image-to-Video (I2V)-paradigma dat een harmonieuze en coherente animatie bereikt en als eerste robuust de bewaring van het eerste frame garandeert. Ten eerste stellen we een Condition-Reconciliation Mechanism voor om de twee conflicterende condities te harmoniseren, waardoor precieze controle mogelijk wordt zonder in te boeten aan getrouwheid. Ten tweede ontwerpen we Synergistic Pose Modulation Modules om een adaptieve en coherente pose-representatie te genereren die zeer compatibel is met de referentieafbeelding. Tot slot zetten we een Staged Decoupled-Objective Training Pipeline in die het model hiërarchisch optimaliseert voor bewegingsgetrouwheid, visuele kwaliteit en temporele coherentie. Experimenten tonen aan dat SteadyDancer state-of-the-art prestaties levert op het gebied van zowel uiterlijke getrouwheid als bewegingscontrole, terwijl aanzienlijk minder trainingsbronnen nodig zijn dan bij vergelijkbare methoden.
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.