ChatPaper.aiChatPaper

ReSyncer: Neuverdrahtung des Style-basierten Generators für einen vereinheitlichten audiovisuell synchronisierten Gesichtsdarsteller.

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

August 6, 2024
Autoren: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI

Zusammenfassung

Das Synchronisieren von Lippenbewegungen in Videos mit vorgegebenem Audio bildet die Grundlage für verschiedene Anwendungen, darunter die Erstellung virtueller Moderatoren oder Künstler. Während aktuelle Studien hochwertige Lippen-Synchronisation mit verschiedenen Techniken untersuchen, erfordern ihre aufgabenorientierten Modelle entweder langfristige Videos für clip-spezifisches Training oder weisen sichtbare Artefakte auf. In diesem Paper schlagen wir ein einheitliches und effektives Framework namens ReSyncer vor, das generalisierte audiovisuelle Gesichtsinformationen synchronisiert. Der Schlüsselansatz besteht darin, den Style-basierten Generator zu überarbeiten und neu zu verknüpfen, um die 3D-Gesichtsdynamik effizient anzunehmen, die von einem fundierten Style-injected Transformer vorhergesagt wird. Durch einfaches Neukonfigurieren der Informations-Einfügungsmechanismen im Rausch- und Style-Raum fusioniert unser Framework Bewegung und Erscheinungsbild mit vereinter Schulung. Umfangreiche Experimente zeigen, dass ReSyncer nicht nur hochwertige lippen-synchrone Videos gemäß Audio produziert, sondern auch mehrere ansprechende Eigenschaften unterstützt, die für die Erstellung virtueller Moderatoren und Künstler geeignet sind, darunter schnelles personalisiertes Feintuning, video-gesteuerte Lippen-Synchronisation, die Übertragung von Sprechstilen und sogar Gesichtsaustausch. Ressourcen sind unter https://guanjz20.github.io/projects/ReSyncer verfügbar.
English
Lip-syncing videos with given audio is the foundation for various applications including the creation of virtual presenters or performers. While recent studies explore high-fidelity lip-sync with different techniques, their task-orientated models either require long-term videos for clip-specific training or retain visible artifacts. In this paper, we propose a unified and effective framework ReSyncer, that synchronizes generalized audio-visual facial information. The key design is revisiting and rewiring the Style-based generator to efficiently adopt 3D facial dynamics predicted by a principled style-injected Transformer. By simply re-configuring the information insertion mechanisms within the noise and style space, our framework fuses motion and appearance with unified training. Extensive experiments demonstrate that ReSyncer not only produces high-fidelity lip-synced videos according to audio, but also supports multiple appealing properties that are suitable for creating virtual presenters and performers, including fast personalized fine-tuning, video-driven lip-syncing, the transfer of speaking styles, and even face swapping. Resources can be found at https://guanjz20.github.io/projects/ReSyncer.

Summary

AI-Generated Summary

PDF112November 28, 2024