ExposeAnyone:パーソナライズド音声-表情拡散モデルはロバストなゼロショット顔偽造検出器である
ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors
January 5, 2026
著者: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI
要旨
未知のディープフェイク操作を検出することは、顔偽造検知において最も困難な課題の一つであり続けている。現在の最先端手法は、既存のディープフェイクや擬似フェイクを用いた教師あり学習に主に依存しているため、特定の偽造パターンに過適合し、未見の操作への汎化に失敗する。一方、自己教師あり手法は汎化性能の点でより大きな可能性を秘めるが、既存研究は自己教師あり信号のみから識別的な表現を学習するのに苦戦している。本論文では、音声から表情シーケンスを生成する拡散モデルに基づく、完全自己教師あり手法であるExposeAnyoneを提案する。鍵となるアイデアは、参照セットを用いてモデルを特定人物にパーソナライズした後、拡散再構成誤差を介して疑わしい動画とパーソナライズされた人物との間の同一性距離を計算することで、特定人物を対象とした顔偽造検知を可能にする点である。大規模な実験により、以下の結果が示された:1) 我々の手法は、DF-TIMIT、DFDCP、KoDF、IDForgeデータセットにおける平均AUCで従来の最先端手法を4.22パーセントポイント上回る、2) 従来手法が性能を発揮できないSora2生成動画の検知も可能である、3) ぼやけや圧縮などの劣化に対して高いロバスト性を示し、実世界の顔偽造検知における適用性が高い。
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.