ReSyncer : Réorganisation du générateur basé sur le style pour une synchronisation audio-visuelle unifiée des performances faciales
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
Auteurs: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
Résumé
La synchronisation labiale de vidéos avec un audio donné constitue la base de diverses applications, notamment la création de présentateurs ou d'artistes virtuels. Bien que des études récentes explorent la synchronisation labiale haute fidélité avec différentes techniques, leurs modèles orientés tâche nécessitent soit des vidéos de longue durée pour un entraînement spécifique à un clip, soit conservent des artefacts visibles. Dans cet article, nous proposons un cadre unifié et efficace, ReSyncer, qui synchronise les informations audio-visuelles faciales généralisées. La conception clé consiste à revisiter et à réorganiser le générateur basé sur le style pour adopter efficacement les dynamiques faciales 3D prédites par un Transformer injecté de style et basé sur des principes. En reconfigurant simplement les mécanismes d'insertion d'informations dans l'espace de bruit et de style, notre cadre fusionne le mouvement et l'apparence avec un entraînement unifié. Des expériences approfondies démontrent que ReSyncer produit non seulement des vidéos synchronisées labialement de haute fidélité selon l'audio, mais prend également en charge plusieurs propriétés attrayantes adaptées à la création de présentateurs et d'artistes virtuels, y compris un réglage fin personnalisé rapide, une synchronisation labiale pilotée par vidéo, le transfert de styles de parole et même l'échange de visages. Les ressources peuvent être trouvées à l'adresse https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.Summary
AI-Generated Summary