ReSyncer: Refatoração do Gerador Baseado em Estilo para Integração de Áudio-Visualmente Sincronizado com Atuação Facial
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
Autores: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
Resumo
A sincronização labial de vídeos com áudio fornecido é a base para várias aplicações, incluindo a criação de apresentadores ou artistas virtuais. Enquanto estudos recentes exploram a sincronização labial de alta fidelidade com diferentes técnicas, seus modelos orientados para tarefas exigem vídeos de longa duração para treinamento específico de trechos ou apresentam artefatos visíveis. Neste artigo, propomos uma estrutura unificada e eficaz, ReSyncer, que sincroniza informações faciais audiovisuais generalizadas. O design-chave consiste em revisitar e reconfigurar o gerador baseado em estilo para adotar eficientemente a dinâmica facial 3D prevista por um Transformer injetado com estilo. Ao reconfigurar simplesmente os mecanismos de inserção de informações no espaço de ruído e estilo, nossa estrutura funde movimento e aparência com treinamento unificado. Experimentos extensos demonstram que o ReSyncer não apenas produz vídeos de sincronização labial de alta fidelidade de acordo com o áudio, mas também suporta múltiplas propriedades atrativas adequadas para a criação de apresentadores e artistas virtuais, incluindo ajuste fino personalizado rápido, sincronização labial impulsionada por vídeo, transferência de estilos de fala e até troca de rostos. Os recursos podem ser encontrados em https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.Summary
AI-Generated Summary