ChatPaper.aiChatPaper

ReSyncer: Herschakeling van een op stijl gebaseerde generator voor een uniforme audio-visueel gesynchroniseerde gezichtsuitvoering

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

August 6, 2024
Auteurs: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI

Samenvatting

Lip-syncvideo's maken met gegeven audio vormt de basis voor diverse toepassingen, waaronder het creëren van virtuele presentatoren of artiesten. Hoewel recente studies hoogwaardige lip-sync verkennen met verschillende technieken, vereisen hun taakgerichte modellen ofwel langdurige video's voor clipspecifieke training of vertonen ze zichtbare artefacten. In dit artikel stellen we een uniform en effectief framework voor, genaamd ReSyncer, dat gegeneraliseerde audio-visuele gezichtsinformatie synchroniseert. De kern van het ontwerp is het herzien en herconfigureren van de Style-based generator om efficiënt 3D-gezichts dynamiek te integreren die wordt voorspeld door een principieel style-injected Transformer. Door simpelweg de informatie-invoermechanismen binnen de ruis- en stijlruimte te herconfigureren, combineert ons framework beweging en uiterlijk met uniforme training. Uitgebreide experimenten tonen aan dat ReSyncer niet alleen hoogwaardige lip-syncvideo's produceert op basis van audio, maar ook meerdere aantrekkelijke eigenschappen ondersteunt die geschikt zijn voor het creëren van virtuele presentatoren en artiesten, waaronder snelle gepersonaliseerde fine-tuning, video-gestuurde lip-sync, de overdracht van spreekstijlen en zelfs gezichtsverwisseling. Bronnen zijn te vinden op https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various applications including the creation of virtual presenters or performers. While recent studies explore high-fidelity lip-sync with different techniques, their task-orientated models either require long-term videos for clip-specific training or retain visible artifacts. In this paper, we propose a unified and effective framework ReSyncer, that synchronizes generalized audio-visual facial information. The key design is revisiting and rewiring the Style-based generator to efficiently adopt 3D facial dynamics predicted by a principled style-injected Transformer. By simply re-configuring the information insertion mechanisms within the noise and style space, our framework fuses motion and appearance with unified training. Extensive experiments demonstrate that ReSyncer not only produces high-fidelity lip-synced videos according to audio, but also supports multiple appealing properties that are suitable for creating virtual presenters and performers, including fast personalized fine-tuning, video-driven lip-syncing, the transfer of speaking styles, and even face swapping. Resources can be found at https://guanjz20.github.io/projects/ReSyncer.
PDF112February 8, 2026