ChatPaper.aiChatPaper

SteadyDancer: 초기 프레임 보존 기반의 조화롭고 일관된 인간 이미지 애니메이션

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

November 24, 2025
저자: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI

초록

첫 프레임 정체성 보존과 정확한 모션 제어의 동시 달성은 인간 이미지 애니메이션의 핵심 과제입니다. 기존 지배적인 참조-대-비디오(Reference-to-Video, R2V) 패러다임의 이미지-모션 결합(Image-to-Motion Binding) 과정은 실제 응용에서 흔히 발생하는 중요한 시공간적 불일치 문제를 간과하여 정체성 이탈 및 시각적 아티팩트와 같은 실패를 초래합니다. 본 연구에서는 조화롭고 일관된 애니메이션을 구현하며 첫 프레임 보존을 강력하게 보장하는 최초의 이미지-대-비디오(Image-to-Video, I2V) 패러다임 기반 프레임워크인 SteadyDancer를 소개합니다. 첫째, 상충하는 두 조건을 조화시키는 조건 조정 메커니즘(Condition-Reconciliation Mechanism)을 제안하여 충실도를 희생하지 않으면서 정밀한 제어를 가능하게 합니다. 둘째, 참조 이미지와 높은 호환성을 갖는 적응형 일관된 포즈 표현을 생성하는 상호 조화 포즈 변조 모듈(Synergistic Pose Modulation Modules)을 설계합니다. 마지막으로, 모션 충실도, 시각적 품질, 시간적 일관성을 계층적으로 최적화하는 단계적 분리 목적 학습 파이프라인(Staged Decoupled-Objective Training Pipeline)을 적용합니다. 실험 결과, SteadyDancer는 외관 충실도와 모션 제어 모두에서 최첨단 성능을 달성하면서도 유사 방법 대비 훨씬 적은 학습 자원만을 필요로 함을 입증합니다.
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.
PDF392December 1, 2025