ChatPaper.aiChatPaper

FLOAT: オーディオによる話すポートレートのための生成モーション潜在フローのマッチング

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

December 2, 2024
著者: Taekyung Ki, Dongchan Min, Gyoungsu Chae
cs.AI

要旨

拡散ベースの生成モデルの急速な進化により、肖像画像アニメーションは顕著な成果を収めています。ただし、反復的なサンプリングの性質に起因する時間的に一貫したビデオ生成と高速サンプリングには依然として課題があります。本論文では、FLOWマッチング生成モデルに基づく音声駆動の会話ポートレートビデオ生成手法であるFLOATを提案します。我々は、生成モデリングをピクセルベースの潜在空間から学習された動きの潜在空間に移行させ、時間的に一貫した動きの効率的な設計を可能にしました。これを実現するために、シンプルかつ効果的なフレームごとの条件付けメカニズムを持つトランスフォーマーベースのベクトル場予測器を導入しています。さらに、当社の手法は音声駆動の感情強調をサポートし、表現豊かな動きを自然に組み込むことができます。幅広い実験により、当社の手法が視覚品質、動きの忠実度、効率性の点で最先端の音声駆動の会話ポートレート手法を上回ることが示されています。
English
With the rapid advancement of diffusion-based generative models, portrait image animation has achieved remarkable results. However, it still faces challenges in temporally consistent video generation and fast sampling due to its iterative sampling nature. This paper presents FLOAT, an audio-driven talking portrait video generation method based on flow matching generative model. We shift the generative modeling from the pixel-based latent space to a learned motion latent space, enabling efficient design of temporally consistent motion. To achieve this, we introduce a transformer-based vector field predictor with a simple yet effective frame-wise conditioning mechanism. Additionally, our method supports speech-driven emotion enhancement, enabling a natural incorporation of expressive motions. Extensive experiments demonstrate that our method outperforms state-of-the-art audio-driven talking portrait methods in terms of visual quality, motion fidelity, and efficiency.

Summary

AI-Generated Summary

PDF308December 3, 2024