ReSyncer: スタイルベース生成器の再配線による統一的な音声-視覚同期顔パフォーマンス
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
著者: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
要旨
与えられた音声に合わせたリップシンク動画は、バーチャルプレゼンターやパフォーマーの作成を含む様々なアプリケーションの基盤となっている。近年の研究では、異なる技術を用いた高精細なリップシンクが探求されているが、それらのタスク指向モデルは、クリップ固有のトレーニングのために長期間の動画を必要とするか、目に見えるアーティファクトを残すかのいずれかである。本論文では、一般化された音声-視覚的面部情報を同期させる統一かつ効果的なフレームワークReSyncerを提案する。鍵となる設計は、Style-basedジェネレータを再検討し、再配線することで、原則に基づいたスタイル注入型Transformerによって予測される3D面部ダイナミクスを効率的に採用することである。ノイズ空間とスタイル空間内の情報挿入メカニズムを単純に再構成することで、本フレームワークはモーションと外観を統一されたトレーニングで融合させる。広範な実験により、ReSyncerが音声に従った高精細なリップシンク動画を生成するだけでなく、高速なパーソナライズドファインチューニング、動画駆動型リップシンク、話し方のスタイル転送、さらには顔の入れ替えなど、バーチャルプレゼンターやパフォーマーの作成に適した複数の魅力的な特性をサポートすることが実証された。リソースはhttps://guanjz20.github.io/projects/ReSyncerで確認できる。
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.Summary
AI-Generated Summary