KeySync: Uma Abordagem Robusta para Sincronização Labial sem Vazamentos em Alta Resolução

Resumo

A sincronização labial, conhecida como a tarefa de alinhar os movimentos dos lábios em um vídeo existente com um novo áudio de entrada, é tipicamente enquadrada como uma variante mais simples da animação facial impulsionada por áudio. No entanto, além de sofrer com os problemas usuais na geração de cabeças falantes (por exemplo, consistência temporal), a sincronização labial apresenta desafios significativos, como vazamento de expressão do vídeo de entrada e oclusões faciais, que podem impactar severamente aplicações do mundo real, como dublagem automatizada, mas que são frequentemente negligenciados em trabalhos existentes. Para abordar essas deficiências, apresentamos o KeySync, um framework de dois estágios que resolve com sucesso o problema de consistência temporal, ao mesmo tempo em que incorpora soluções para vazamento e oclusões usando uma estratégia de mascaramento cuidadosamente projetada. Mostramos que o KeySync alcança resultados de ponta na reconstrução labial e na sincronização cruzada, melhorando a qualidade visual e reduzindo o vazamento de expressão de acordo com o LipLeak, nossa nova métrica de vazamento. Além disso, demonstramos a eficácia de nossa nova abordagem de mascaramento no tratamento de oclusões e validamos nossas escolhas arquitetônicas por meio de vários estudos de ablação. O código e os pesos do modelo podem ser encontrados em https://antonibigata.github.io/KeySync.

English

Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

KeySync: Uma Abordagem Robusta para Sincronização Labial sem Vazamentos em Alta Resolução

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

Resumo

Support