SteadyDancer: Animação Harmoniosa e Coerente de Imagens Humanas com Preservação do Primeiro Quadro

Resumo

Preservar a identidade do primeiro quadro enquanto garante um controle de movimento preciso é um desafio fundamental na animação de imagens humanas. O processo de Vinculação Imagem-Movimento do paradigma dominante Referência-para-Vídeo (R2V) ignora desalinhamentos espaço-temporais críticos comuns em aplicações do mundo real, levando a falhas como deriva de identidade e artefatos visuais. Apresentamos o SteadyDancer, uma estrutura baseada no paradigma Imagem-para-Vídeo (I2V) que alcança uma animação harmoniosa e coerente, sendo a primeira a garantir robustamente a preservação do primeiro quadro. Primeiramente, propomos um Mecanismo de Reconciliação de Condições para harmonizar as duas condições conflitantes, permitindo controle preciso sem sacrificar a fidelidade. Em segundo lugar, projetamos Módulos de Modulação de Pose Sinérgicos para gerar uma representação de pose adaptativa e coerente, altamente compatível com a imagem de referência. Por fim, empregamos um Pipeline de Treinamento com Objetivo Desacoplado em Etapas que otimiza hierarquicamente o modelo para fidelidade de movimento, qualidade visual e coerência temporal. Experimentos demonstram que o SteadyDancer alcança desempenho de última geração em fidelidade de aparência e controle de movimento, enquanto requer significativamente menos recursos de treinamento do que métodos comparáveis.

English

Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.