TCAN: 拡散モデルを用いた時間的一貫性のあるポーズガイダンスによる人物画像アニメーション
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models
July 12, 2024
著者: Jeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo
cs.AI
要旨
ポーズ駆動型の人物画像アニメーション拡散モデルは、リアルな人物動画合成において顕著な能力を示しています。これまでの手法が達成した有望な結果にもかかわらず、時間的に一貫したアニメーションの実現や、市販のポーズ検出器に対するロバスト性の確保において課題が残されています。本論文では、誤ったポーズに対してロバストであり、時間的に一貫性のあるポーズ駆動型人物画像アニメーション手法であるTCANを提案します。従来の手法とは異なり、我々は微調整を行わずに事前学習済みのControlNetを活用し、多数のポーズ-画像-キャプションペアから得られた広範な事前知識を利用します。ControlNetを凍結したままにするため、UNet層にLoRAを適用し、ポーズと外見特徴の潜在空間を整合させることを可能にします。さらに、ControlNetに追加の時間層を導入することで、ポーズ検出器の外れ値に対するロバスト性を向上させます。時間軸にわたるアテンションマップの分析を通じて、ポーズ情報を活用した新しい温度マップを設計し、より静的な背景を実現しました。広範な実験により、提案手法がチビキャラなど様々なポーズを含む動画合成タスクにおいて有望な結果を達成できることが示されています。プロジェクトページ: https://eccv2024tcan.github.io/
English
Pose-driven human-image animation diffusion models have shown remarkable
capabilities in realistic human video synthesis. Despite the promising results
achieved by previous approaches, challenges persist in achieving temporally
consistent animation and ensuring robustness with off-the-shelf pose detectors.
In this paper, we present TCAN, a pose-driven human image animation method that
is robust to erroneous poses and consistent over time. In contrast to previous
methods, we utilize the pre-trained ControlNet without fine-tuning to leverage
its extensive pre-acquired knowledge from numerous pose-image-caption pairs. To
keep the ControlNet frozen, we adapt LoRA to the UNet layers, enabling the
network to align the latent space between the pose and appearance features.
Additionally, by introducing an additional temporal layer to the ControlNet, we
enhance robustness against outliers of the pose detector. Through the analysis
of attention maps over the temporal axis, we also designed a novel temperature
map leveraging pose information, allowing for a more static background.
Extensive experiments demonstrate that the proposed method can achieve
promising results in video synthesis tasks encompassing various poses, like
chibi. Project Page: https://eccv2024tcan.github.io/Summary
AI-Generated Summary