ReSyncer: Herschakeling van een op stijl gebaseerde generator voor een uniforme audio-visueel gesynchroniseerde gezichtsuitvoering
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
Auteurs: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
Samenvatting
Lip-syncvideo's maken met gegeven audio vormt de basis voor diverse toepassingen, waaronder het creëren van virtuele presentatoren of artiesten. Hoewel recente studies hoogwaardige lip-sync verkennen met verschillende technieken, vereisen hun taakgerichte modellen ofwel langdurige video's voor clipspecifieke training of vertonen ze zichtbare artefacten. In dit artikel stellen we een uniform en effectief framework voor, genaamd ReSyncer, dat gegeneraliseerde audio-visuele gezichtsinformatie synchroniseert. De kern van het ontwerp is het herzien en herconfigureren van de Style-based generator om efficiënt 3D-gezichts dynamiek te integreren die wordt voorspeld door een principieel style-injected Transformer. Door simpelweg de informatie-invoermechanismen binnen de ruis- en stijlruimte te herconfigureren, combineert ons framework beweging en uiterlijk met uniforme training. Uitgebreide experimenten tonen aan dat ReSyncer niet alleen hoogwaardige lip-syncvideo's produceert op basis van audio, maar ook meerdere aantrekkelijke eigenschappen ondersteunt die geschikt zijn voor het creëren van virtuele presentatoren en artiesten, waaronder snelle gepersonaliseerde fine-tuning, video-gestuurde lip-sync, de overdracht van spreekstijlen en zelfs gezichtsverwisseling. Bronnen zijn te vinden op https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.