SteadyDancer: Animación de Imágenes Humanas Armonizada y Coherente con Preservación del Primer Fotograma
SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation
November 24, 2025
Autores: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI
Resumen
Preservar la identidad del primer fotograma mientras se garantiza un control de movimiento preciso es un desafío fundamental en la animación de imágenes humanas. El proceso de Vinculación Imagen-Movimiento del paradigma dominante Referencia-a-Video (R2V) pasa por alto desalineaciones espacio-temporales críticas comunes en aplicaciones del mundo real, lo que genera fallos como la deriva de identidad y artefactos visuales. Presentamos SteadyDancer, un marco basado en el paradigma Imagen-a-Video (I2V) que logra una animación armoniosa y coherente, siendo el primero en garantizar robustamente la preservación del primer fotograma. En primer lugar, proponemos un Mecanismo de Reconciliación de Condiciones para armonizar las dos condiciones conflictivas, permitiendo un control preciso sin sacrificar la fidelidad. En segundo lugar, diseñamos Módulos de Modulación de Pose Sinérgicos para generar una representación de pose adaptativa y coherente altamente compatible con la imagen de referencia. Finalmente, empleamos una Tubería de Entrenamiento por Objetivos Escalonados y Desacoplados que optimiza jerárquicamente el modelo para la fidelidad de movimiento, la calidad visual y la coherencia temporal. Los experimentos demuestran que SteadyDancer logra un rendimiento de vanguardia tanto en fidelidad de apariencia como en control de movimiento, mientras requiere significativamente menos recursos de entrenamiento que métodos comparables.
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.