ReSyncer: Reconfiguración del Generador basado en Estilo para un Intérprete Facial Audiovisualmente Sincronizado Unificado
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
Autores: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
Resumen
La sincronización labial de videos con audio proporcionado es la base para varias aplicaciones, incluida la creación de presentadores o artistas virtuales. Si bien estudios recientes exploran la sincronización labial de alta fidelidad con diferentes técnicas, sus modelos orientados a tareas requieren videos a largo plazo para entrenamiento específico del clip o presentan artefactos visibles. En este documento, proponemos un marco unificado y efectivo llamado ReSyncer, que sincroniza información facial audiovisual generalizada. El diseño clave consiste en revisitar y reconfigurar el generador basado en estilo para adoptar eficientemente la dinámica facial 3D predicha por un Transformer inyectado con estilo de manera fundamentada. Al reconfigurar simplemente los mecanismos de inserción de información dentro del espacio de ruido y estilo, nuestro marco fusiona el movimiento y la apariencia con un entrenamiento unificado. Experimentos extensos demuestran que ReSyncer no solo produce videos de sincronización labial de alta fidelidad de acuerdo con el audio, sino que también admite múltiples propiedades atractivas adecuadas para crear presentadores y artistas virtuales, incluido el ajuste fino personalizado rápido, la sincronización labial impulsada por video, la transferencia de estilos de habla e incluso el intercambio de rostros. Los recursos se pueden encontrar en https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.Summary
AI-Generated Summary