ChatPaper.aiChatPaper

SteadyDancer: 初動フレーム保存による調和と一貫性のある人物画像アニメーション

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

November 24, 2025
著者: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma
cs.AI

要旨

初動フレームの同一性を維持しつつ正確なモーション制御を実現することは、人物画像アニメーションにおける根本的な課題である。主流のReference-to-Video(R2V)パラダイムにおけるImage-to-Motion Bindingプロセスは、実世界アプリケーションで頻発する時空間的なミスアラインメントを看過し、アイデンティティの変質や視覚的アーティファクトといった不具合を引き起こす。本論文では、Image-to-Video(I2V)パラダイムに基づくフレームワークSteadyDancerを提案する。これは調和のとれた一貫性あるアニメーションを実現し、初動フレーム保存を強固に保証する初の手法である。第一に、二つの相反する条件を調和させるCondition-Reconciliation Mechanismを導入し、忠実性を損なうことなく精密な制御を可能にする。第二に、参照画像との高い互換性を持つ適応的で一貫性あるポーズ表現を生成するSynergistic Pose Modulation Modulesを設計する。最後に、モーションの忠実性・視覚的品質・時間的一貫性を階層的に最適化するStaged Decoupled-Objective Training Pipelineを採用する。実験により、SteadyDancerが外観の忠実性とモーション制御の両方で最先端の性能を達成し、比較手法よりも大幅に少ない学習リソースで済むことを実証する。
English
Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.
PDF392December 1, 2025