ChatPaper.aiChatPaper

SteadyDancer: Animazione di Immagini Umane Armonizzata e Coerente con Preservazione del Primo Fotogramma

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

November 24, 2025
Autori: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI

Abstract

Preservare l'identità del fotogramma iniziale garantendo al contempo un controllo preciso del movimento rappresenta una sfida fondamentale nell'animazione di immagini umane. Il processo di Image-to-Motion Binding del paradigma dominante Reference-to-Video (R2V) trascura i critici disallineamenti spazio-temporali comuni nelle applicazioni reali, portando a fallimenti come la deriva dell'identità e artefatti visivi. Introduciamo SteadyDancer, un framework basato sul paradigma Image-to-Video (I2V) che realizza un'animazione armonizzata e coerente, ed è il primo a garantire robustamente la preservazione del fotogramma iniziale. In primo luogo, proponiamo un Meccanismo di Riconciliazione delle Condizioni per armonizzare le due condizioni conflittuali, consentendo un controllo preciso senza sacrificare la fedeltà. In secondo luogo, progettiamo Moduli di Modulazione Sinergica della Posa per generare una rappresentazione della posa adattiva e coerente, altamente compatibile con l'immagine di riferimento. Infine, impieghiamo una Pipeline di Addestramento a Obiettivi Disaccoppiati e Fasi che ottimizza il modello in modo gerarchico per la fedeltà del movimento, la qualità visiva e la coerenza temporale. Gli esperimenti dimostrano che SteadyDancer raggiunge prestazioni all'avanguardia sia nella fedeltà dell'aspetto che nel controllo del movimento, richiedendo al contempo risorse di addestramento significativamente inferiori rispetto a metodi comparabili.
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.
PDF392December 1, 2025