ChatPaper.aiChatPaper

KeySync: 高解像度における漏洩のないリップシンクロナイゼーションのための堅牢なアプローチ

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

May 1, 2025
著者: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
cs.AI

要旨

リップシンクロナイゼーションは、既存のビデオにおける唇の動きを新しい入力音声に合わせるタスクとして知られており、一般的に音声駆動型の顔面アニメーションの簡易版として位置づけられています。しかし、リップシンクロナイゼーションは、話し頭生成における一般的な課題(例えば、時間的一貫性)に加えて、入力ビデオからの表情の漏れや顔の遮蔽といった新たな重大な課題を抱えています。これらの課題は、自動吹き替えなどの実世界のアプリケーションに深刻な影響を及ぼす可能性がありますが、既存の研究ではしばしば無視されています。これらの欠点に対処するため、我々はKeySyncを提案します。これは、時間的一貫性の問題を解決するだけでなく、入念に設計されたマスキング戦略を用いて漏れや遮蔽に対する解決策を組み込んだ2段階のフレームワークです。KeySyncがリップ再構築とクロスシンクロナイゼーションにおいて最先端の結果を達成し、視覚的品質を向上させ、我々が新たに提案した漏れ指標であるLipLeakに基づいて表情の漏れを減少させることを示します。さらに、我々の新しいマスキングアプローチが遮蔽の処理において有効であることを実証し、いくつかのアブレーションスタディを通じてアーキテクチャの選択を検証します。コードとモデルの重みはhttps://antonibigata.github.io/KeySyncで公開されています。
English
Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

Summary

AI-Generated Summary

PDF115May 4, 2025