ChatPaper.aiChatPaper

KeySync: Надежный подход к синхронизации губ без утечек в высоком разрешении

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

May 1, 2025
Авторы: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
cs.AI

Аннотация

Синхронизация губ, задача, заключающаяся в согласовании движений губ в существующем видео с новым аудиовходом, обычно рассматривается как более простая разновидность анимации лица, управляемой звуком. Однако, помимо общих проблем, характерных для генерации говорящих голов (например, временной согласованности), синхронизация губ сталкивается с новыми значительными трудностями, такими как утечка выражений из исходного видео и лицевые окклюзии, которые могут серьезно повлиять на реальные приложения, такие как автоматическое дубляж, но часто игнорируются в существующих работах. Для устранения этих недостатков мы представляем KeySync, двухэтапную структуру, которая успешно решает проблему временной согласованности, а также включает решения для утечки и окклюзий с использованием тщательно разработанной стратегии маскирования. Мы показываем, что KeySync достигает передовых результатов в реконструкции губ и кросс-синхронизации, улучшая визуальное качество и снижая утечку выражений согласно LipLeak, нашей новой метрике утечки. Кроме того, мы демонстрируем эффективность нашего нового подхода к маскированию в обработке окклюзий и подтверждаем наши архитектурные решения с помощью нескольких абляционных исследований. Код и веса модели доступны по адресу https://antonibigata.github.io/KeySync.
English
Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

Summary

AI-Generated Summary

PDF115May 4, 2025