ChatPaper.aiChatPaper

KeySync: 고해상도에서 누수 없는 입술 동기화를 위한 강건한 접근법

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

May 1, 2025
저자: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
cs.AI

초록

입술 동기화는 기존 비디오의 입술 움직임을 새로운 입력 오디오와 맞추는 작업으로, 일반적으로 오디오 기반 얼굴 애니메이션의 단순화된 변형으로 간주됩니다. 그러나 입술 동기화는 말하는 머리 생성에서 흔히 발생하는 문제들(예: 시간적 일관성) 외에도, 입력 비디오에서의 표정 누출 및 얼굴 가림과 같은 중요한 새로운 도전 과제를 제시합니다. 이러한 문제들은 자동 더빙과 같은 실제 응용 프로그램에 심각한 영향을 미칠 수 있지만, 기존 연구에서는 종종 간과되었습니다. 이러한 단점을 해결하기 위해, 우리는 KeySync라는 두 단계 프레임워크를 제안합니다. KeySync는 시간적 일관성 문제를 해결하는 동시에, 신중하게 설계된 마스킹 전략을 통해 누출 및 가림 문제에 대한 해결책을 통합합니다. 우리는 KeySync가 입술 재구성 및 교차 동기화에서 최첨단 결과를 달성하며, 우리의 새로운 누출 지표인 LipLeak에 따라 시각적 품질을 개선하고 표정 누출을 줄이는 것을 보여줍니다. 또한, 우리의 새로운 마스킹 접근법이 가림 문제를 효과적으로 처리하는 것을 입증하고, 여러 가지 제거 연구를 통해 우리의 아키텍처 선택을 검증합니다. 코드와 모델 가중치는 https://antonibigata.github.io/KeySync에서 확인할 수 있습니다.
English
Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

Summary

AI-Generated Summary

PDF115May 4, 2025