SteadyDancer: Harmonische und kohärente menschliche Bildanimation mit Erstbilderhaltung
SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation
November 24, 2025
papers.authors: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI
papers.abstract
Die Bewahrung der Identität des ersten Bildes bei gleichzeitiger Gewährleistung einer präzisen Bewegungssteuerung stellt eine grundlegende Herausforderung in der menschlichen Bildanimation dar. Der Bild-Bewegungs-Bindungsprozess des dominierenden Referenz-zu-Video (R2V)-Paradigmas übersieht kritische räumlich-zeitliche Fehlausrichtungen, die in realen Anwendungen häufig auftreten, was zu Problemen wie Identitätsdrift und visuellen Artefakten führt. Wir stellen SteadyDancer vor, ein auf dem Bild-zu-Video (I2V)-Paradigma basierendes Framework, das eine harmonische und kohärente Animation erreicht und als erstes System eine robuste Bewahrung des ersten Bildes sicherstellt. Erstens schlagen wir einen Konditions-Abgleichsmechanismus vor, um die beiden konfligierenden Bedingungen zu harmonisieren und eine präzise Steuerung ohne Einbußen bei der Wiedergabetreue zu ermöglichen. Zweitens entwerfen wir synergetische Posemodulationsmodule, die eine adaptive und kohärente Posendarstellung erzeugen, die hochgradig kompatibel mit dem Referenzbild ist. Schließlich setzen wir eine gestufte, entkoppelte Trainingspipeline ein, die das Modell hierarchisch für Bewegungsgenauigkeit, visuelle Qualität und zeitliche Kohärenz optimiert. Experimente zeigen, dass SteadyDancer state-of-the-art Leistung sowohl in der Erscheinungstreue als auch in der Bewegungssteuerung erreicht, während es deutlich weniger Trainingsressourcen als vergleichbare Methoden benötigt.
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.