KeySync: Un enfoque robusto para la sincronización labial sin fugas en alta resolución

Resumen

La sincronización labial, conocida como la tarea de alinear los movimientos de los labios en un video existente con un nuevo audio de entrada, se suele plantear como una variante más simple de la animación facial impulsada por audio. Sin embargo, además de sufrir los problemas habituales en la generación de cabezas parlantes (por ejemplo, la consistencia temporal), la sincronización labial presenta desafíos significativos como la fuga de expresiones del video de entrada y las oclusiones faciales, que pueden afectar gravemente aplicaciones del mundo real como el doblaje automatizado, pero que a menudo se pasan por alto en trabajos existentes. Para abordar estas limitaciones, presentamos KeySync, un marco de trabajo de dos etapas que logra resolver el problema de la consistencia temporal, al mismo tiempo que incorpora soluciones para la fuga y las oclusiones mediante una estrategia de enmascaramiento cuidadosamente diseñada. Mostramos que KeySync alcanza resultados de vanguardia en la reconstrucción labial y la sincronización cruzada, mejorando la calidad visual y reduciendo la fuga de expresiones según LipLeak, nuestra nueva métrica de fuga. Además, demostramos la efectividad de nuestro nuevo enfoque de enmascaramiento para manejar oclusiones y validamos nuestras decisiones arquitectónicas a través de varios estudios de ablación. El código y los pesos del modelo se pueden encontrar en https://antonibigata.github.io/KeySync.

English

Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

KeySync: Un enfoque robusto para la sincronización labial sin fugas en alta resolución

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

Resumen

Support