ChatPaper.aiChatPaper

ReSyncer : Réorganisation du générateur basé sur le style pour une synchronisation audio-visuelle unifiée des performances faciales

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

August 6, 2024
Auteurs: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI

Résumé

La synchronisation labiale de vidéos avec un audio donné constitue la base de diverses applications, notamment la création de présentateurs ou d'artistes virtuels. Bien que des études récentes explorent la synchronisation labiale haute fidélité avec différentes techniques, leurs modèles orientés tâche nécessitent soit des vidéos de longue durée pour un entraînement spécifique à un clip, soit conservent des artefacts visibles. Dans cet article, nous proposons un cadre unifié et efficace, ReSyncer, qui synchronise les informations audio-visuelles faciales généralisées. La conception clé consiste à revisiter et à réorganiser le générateur basé sur le style pour adopter efficacement les dynamiques faciales 3D prédites par un Transformer injecté de style et basé sur des principes. En reconfigurant simplement les mécanismes d'insertion d'informations dans l'espace de bruit et de style, notre cadre fusionne le mouvement et l'apparence avec un entraînement unifié. Des expériences approfondies démontrent que ReSyncer produit non seulement des vidéos synchronisées labialement de haute fidélité selon l'audio, mais prend également en charge plusieurs propriétés attrayantes adaptées à la création de présentateurs et d'artistes virtuels, y compris un réglage fin personnalisé rapide, une synchronisation labiale pilotée par vidéo, le transfert de styles de parole et même l'échange de visages. Les ressources peuvent être trouvées à l'adresse https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various applications including the creation of virtual presenters or performers. While recent studies explore high-fidelity lip-sync with different techniques, their task-orientated models either require long-term videos for clip-specific training or retain visible artifacts. In this paper, we propose a unified and effective framework ReSyncer, that synchronizes generalized audio-visual facial information. The key design is revisiting and rewiring the Style-based generator to efficiently adopt 3D facial dynamics predicted by a principled style-injected Transformer. By simply re-configuring the information insertion mechanisms within the noise and style space, our framework fuses motion and appearance with unified training. Extensive experiments demonstrate that ReSyncer not only produces high-fidelity lip-synced videos according to audio, but also supports multiple appealing properties that are suitable for creating virtual presenters and performers, including fast personalized fine-tuning, video-driven lip-syncing, the transfer of speaking styles, and even face swapping. Resources can be found at https://guanjz20.github.io/projects/ReSyncer.

Summary

AI-Generated Summary

PDF112November 28, 2024