ChatPaper.aiChatPaper

KeySync: Ein robustes Verfahren für die verlustfreie Lippensynchronisation in hoher Auflösung

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

May 1, 2025
Autoren: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
cs.AI

Zusammenfassung

Die Lippensynchronisation, bekannt als die Aufgabe, Lippenbewegungen in einem bestehenden Video mit neuem Eingabe-Audio abzustimmen, wird typischerweise als eine einfachere Variante der audio-gesteuerten Gesichtsanimation betrachtet. Allerdings leidet sie nicht nur unter den üblichen Problemen bei der Generierung von sprechenden Köpfen (z.B. zeitliche Konsistenz), sondern stellt auch erhebliche neue Herausforderungen dar, wie z.B. den Ausdrucksdurchgriff aus dem Eingabevideo und Gesichtsverdeckungen, die reale Anwendungen wie automatisiertes Synchronisieren stark beeinträchtigen können, aber in bestehenden Arbeiten oft vernachlässigt werden. Um diese Mängel zu beheben, präsentieren wir KeySync, ein zweistufiges Framework, das das Problem der zeitlichen Konsistenz erfolgreich löst und gleichzeitig Lösungen für Durchgriff und Verdeckungen durch eine sorgfältig gestaltete Maskierungsstrategie integriert. Wir zeigen, dass KeySync state-of-the-art Ergebnisse in der Lippennachbildung und Cross-Synchronisation erzielt, die visuelle Qualität verbessert und den Ausdrucksdurchgriff gemäß LipLeak, unserer neuartigen Durchgriff-Metrik, reduziert. Darüber hinaus demonstrieren wir die Wirksamkeit unseres neuen Maskierungsansatzes bei der Handhabung von Verdeckungen und validieren unsere architektonischen Entscheidungen durch mehrere Ablationsstudien. Code und Modellgewichte sind unter https://antonibigata.github.io/KeySync verfügbar.
English
Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

Summary

AI-Generated Summary

PDF115May 4, 2025