ExposeAnyone: 개인화된 오디오-표현 디퓨전 모델의 강력한 제로샷 얼굴 위조 탐지 성능
ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors
January 5, 2026
저자: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI
초록
알려지지 않은 딥페이크 조작을 탐지하는 것은 얼굴 위조 탐지 분야에서 가장 어려운 과제 중 하나로 남아 있습니다. 기존의 최첨단 방법들은 주로 기존 딥페이크나 가짜 데이터에 대한 지도 학습에 의존하기 때문에 특정 위조 패턴에 과적합되어 보이지 않는 조작 방식으로 일반화하는 데 실패합니다. 이와 대조적으로 자기 지도 방법은 일반화 가능성이 더 크지만, 기존 연구들은 자기 지도만으로 판별력 있는 표현을 학습하는 데 어려움을 겪습니다. 본 논문에서는 오디오로부터 표정 시퀀스를 생성하는 확산 모델에 기반한 완전한 자기 지도 접근법인 ExposeAnyone를 제안합니다. 핵심 아이디어는 레퍼런스 세트를 사용해 모델이 특정 대상에게 맞춤화된 후, 확산 재구성 오차를 통해 의심 영상과 맞춤화된 대상 간의 신원 거리를 계산함으로써 관심 대상 얼굴 위조 탐지가 가능하다는 점입니다. 광범위한 실험을 통해 1) 우리 방법이 DF-TIMIT, DFDCP, KoDF, IDForge 데이터셋에서 평균 AUC 기준 이전 최첨단 방법보다 4.22% 포인트 우수함을, 2) 우리 모델이 기존 접근법들이 성능이 낮은 Sora2 생성 영상도 탐지할 수 있음을, 3) 우리 방법이 블러 및 압축과 같은 손상에 대해 매우 강건하여 실제 얼굴 위조 탐지 적용 가능성이 높음을 입증합니다.
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.