ChatPaper.aiChatPaper

VividFace:高精細ビデオフェイススワッピングのための拡散ベースのハイブリッドフレームワーク

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

December 15, 2024
著者: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
cs.AI

要旨

ビデオフェイススワッピングは、さまざまなアプリケーションで人気を集めていますが、既存の手法は主に静止画に焦点を当てており、時間的一貫性や複雑なシナリオによるビデオフェイススワッピングの問題に苦労しています。本論文では、ビデオフェイススワッピングに特化した初の拡散ベースのフレームワークを提案します。当アプローチは、豊富な静止画データと時間的ビデオシーケンスの両方を活用する画像-ビデオハイブリッドトレーニングフレームワークを導入し、ビデオのみのトレーニングの固有の制限に対処します。このフレームワークには、特に設計された拡散モデルとVidFaceVAEを組み合わせ、生成されたビデオの時間的一貫性をよりよく維持するために両方のデータタイプを効果的に処理します。さらに、アイデンティティとポーズの特徴を分離するために、Attribute-Identity Disentanglement Triplet(AIDT)データセットを構築しました。各三つ組には、2つの画像が同じポーズを共有し、2つの画像が同じアイデンティティを共有しています。包括的な遮蔽オーグメンテーションを施したこのデータセットは、遮蔽に対する堅牢性も向上させます。さらに、大きなポーズの変化を処理するために、3D再構築技術をネットワークへの入力条件として統合しています。広範な実験により、当フレームワークが既存の手法と比較して、アイデンティティの保存、時間的一貫性、視覚的品質において優れた性能を達成し、推論ステップが少なくて済むことが示されました。当アプローチは、ビデオフェイススワッピングにおける時間的なちらつき、アイデンティティの保存、遮蔽やポーズの変化に対する堅牢性など、主要な課題を効果的に緩和します。
English
Video face swapping is becoming increasingly popular across various applications, yet existing methods primarily focus on static images and struggle with video face swapping because of temporal consistency and complex scenarios. In this paper, we present the first diffusion-based framework specifically designed for video face swapping. Our approach introduces a novel image-video hybrid training framework that leverages both abundant static image data and temporal video sequences, addressing the inherent limitations of video-only training. The framework incorporates a specially designed diffusion model coupled with a VidFaceVAE that effectively processes both types of data to better maintain temporal coherence of the generated videos. To further disentangle identity and pose features, we construct the Attribute-Identity Disentanglement Triplet (AIDT) Dataset, where each triplet has three face images, with two images sharing the same pose and two sharing the same identity. Enhanced with a comprehensive occlusion augmentation, this dataset also improves robustness against occlusions. Additionally, we integrate 3D reconstruction techniques as input conditioning to our network for handling large pose variations. Extensive experiments demonstrate that our framework achieves superior performance in identity preservation, temporal consistency, and visual quality compared to existing methods, while requiring fewer inference steps. Our approach effectively mitigates key challenges in video face swapping, including temporal flickering, identity preservation, and robustness to occlusions and pose variations.

Summary

AI-Generated Summary

PDF122December 17, 2024