ChatPaper.aiChatPaper

KeySync : Une approche robuste pour la synchronisation labiale sans fuite en haute résolution

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

May 1, 2025
Auteurs: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
cs.AI

Résumé

La synchronisation labiale, définie comme la tâche consistant à aligner les mouvements des lèvres dans une vidéo existante avec un nouvel audio d'entrée, est généralement abordée comme une variante simplifiée de l'animation faciale pilotée par l'audio. Cependant, en plus de souffrir des problèmes habituels de la génération de têtes parlantes (par exemple, la cohérence temporelle), la synchronisation labiale présente des défis significatifs tels que la fuite d'expression provenant de la vidéo d'entrée et les occlusions faciales, qui peuvent gravement impacter des applications réelles comme le doublage automatisé, mais sont souvent négligés dans les travaux existants. Pour remédier à ces lacunes, nous présentons KeySync, un framework en deux étapes qui parvient à résoudre le problème de la cohérence temporelle tout en intégrant des solutions pour la fuite et les occlusions grâce à une stratégie de masquage soigneusement conçue. Nous montrons que KeySync obtient des résultats de pointe en reconstruction labiale et en synchronisation croisée, améliorant la qualité visuelle et réduisant la fuite d'expression selon LipLeak, notre nouvelle métrique de fuite. De plus, nous démontrons l'efficacité de notre nouvelle approche de masquage pour gérer les occlusions et validons nos choix architecturaux à travers plusieurs études d'ablation. Le code et les poids des modèles sont disponibles à l'adresse https://antonibigata.github.io/KeySync.
English
Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

Summary

AI-Generated Summary

PDF115May 4, 2025