ChatPaper.aiChatPaper

ポーズの多様性を解き放つ:音声駆動型トーキングポートレートのための正確で効率的な暗黙的キーポイントベースの時空間拡散

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

March 17, 2025
著者: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI

要旨

音声駆動型単一画像話者ポートレート生成は、仮想現実、デジタルヒューマン作成、映画制作において重要な役割を果たします。既存のアプローチは、一般にキーポイントベースと画像ベースの方法に分類されます。キーポイントベースの方法はキャラクターの同一性を効果的に保持しますが、3D Morphable Modelの固定点制限により、細かい顔の詳細を捉えることが困難です。さらに、従来の生成ネットワークは、限られたデータセット上で音声とキーポイントの間の因果関係を確立するのに苦労し、ポーズの多様性が低くなります。一方、画像ベースのアプローチは、拡散ネットワークを使用して多様な詳細を持つ高品質なポートレートを生成しますが、同一性の歪みと高額な計算コストが発生します。本研究では、教師なし暗黙的3Dキーポイントと時空間拡散モデルを組み合わせた初めてのフレームワークであるKDTalkerを提案します。教師なし暗黙的3Dキーポイントを活用することで、KDTalkerは顔の情報密度を適応させ、拡散プロセスが多様な頭部ポーズをモデル化し、柔軟に細かい顔の詳細を捉えることを可能にします。カスタム設計された時空間注意メカニズムは、正確なリップシンクロを確保し、時間的に一貫した高品質なアニメーションを生成しながら、計算効率を向上させます。実験結果は、KDTalkerがリップシンクロ精度、頭部ポーズの多様性、実行効率において最先端の性能を達成することを示しています。私たちのコードはhttps://github.com/chaolongy/KDTalkerで利用可能です。
English
Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Summary

AI-Generated Summary

PDF72March 20, 2025