ReSyncer: Riconfigurazione di un generatore basato sullo stile per un'esecuzione facciale audio-visiva sincronizzata unificata
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
Autori: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
Abstract
La sincronizzazione labiale di video con un determinato audio rappresenta la base per varie applicazioni, inclusa la creazione di presentatori o performer virtuali. Sebbene studi recenti esplorino la sincronizzazione labiale ad alta fedeltà con diverse tecniche, i loro modelli orientati al compito richiedono video di lunga durata per un training specifico o mantengono artefatti visibili. In questo articolo, proponiamo un framework unificato ed efficace, ReSyncer, che sincronizza informazioni audio-visive facciali generalizzate. Il design chiave consiste nel rivisitare e riconfigurare il generatore basato su stile per adottare in modo efficiente le dinamiche facciali 3D previste da un Transformer con iniezione di stile basato su principi. Semplicemente riconfigurando i meccanismi di inserimento delle informazioni all'interno dello spazio del rumore e dello stile, il nostro framework fonde movimento e aspetto con un training unificato. Esperimenti estensivi dimostrano che ReSyncer non solo produce video sincronizzati labialmente ad alta fedeltà in base all'audio, ma supporta anche molteplici proprietà attraenti adatte alla creazione di presentatori e performer virtuali, tra cui un rapido fine-tuning personalizzato, la sincronizzazione labiale guidata da video, il trasferimento di stili di parlato e persino lo scambio di volti. Le risorse sono disponibili all'indirizzo https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.