KeySync: Un Approccio Robusto per la Sincronizzazione Labiale Senza Perdite in Alta Risoluzione
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution
May 1, 2025
Autori: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
cs.AI
Abstract
La sincronizzazione labiale, nota come il compito di allineare i movimenti delle labbra in un video esistente con un nuovo audio in input, è tipicamente inquadrata come una variante più semplice dell'animazione facciale guidata dall'audio. Tuttavia, oltre a soffrire dei soliti problemi nella generazione di teste parlanti (ad esempio, la coerenza temporale), la sincronizzazione labiale presenta nuove sfide significative come la fuoriuscita di espressioni dal video di input e le occlusioni facciali, che possono influire gravemente sulle applicazioni nel mondo reale come il doppiaggio automatizzato, ma sono spesso trascurate nei lavori esistenti. Per affrontare queste carenze, presentiamo KeySync, un framework a due stadi che riesce a risolvere il problema della coerenza temporale, incorporando anche soluzioni per la fuoriuscita e le occlusioni utilizzando una strategia di mascheramento accuratamente progettata. Mostriamo che KeySync raggiunge risultati all'avanguardia nella ricostruzione labiale e nella sincronizzazione incrociata, migliorando la qualità visiva e riducendo la fuoriuscita di espressioni secondo LipLeak, la nostra nuova metrica di fuoriuscita. Inoltre, dimostriamo l'efficacia del nostro nuovo approccio di mascheramento nella gestione delle occlusioni e convalidiamo le nostre scelte architetturali attraverso diversi studi di ablazione. Il codice e i pesi del modello sono disponibili all'indirizzo https://antonibigata.github.io/KeySync.
English
Lip synchronization, known as the task of aligning lip movements in an
existing video with new input audio, is typically framed as a simpler variant
of audio-driven facial animation. However, as well as suffering from the usual
issues in talking head generation (e.g., temporal consistency), lip
synchronization presents significant new challenges such as expression leakage
from the input video and facial occlusions, which can severely impact
real-world applications like automated dubbing, but are often neglected in
existing works. To address these shortcomings, we present KeySync, a two-stage
framework that succeeds in solving the issue of temporal consistency, while
also incorporating solutions for leakage and occlusions using a carefully
designed masking strategy. We show that KeySync achieves state-of-the-art
results in lip reconstruction and cross-synchronization, improving visual
quality and reducing expression leakage according to LipLeak, our novel leakage
metric. Furthermore, we demonstrate the effectiveness of our new masking
approach in handling occlusions and validate our architectural choices through
several ablation studies. Code and model weights can be found at
https://antonibigata.github.io/KeySync.