ExposeAnyone: Personalisierte Audio-zu-Ausdruck-Diffusionsmodelle sind robuste Zero-Shot-Gesichtsfälschungsdetektoren
ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors
January 5, 2026
papers.authors: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI
papers.abstract
Die Erkennung unbekannter Deepfake-Manipulationen bleibt eines der schwierigsten Probleme in der Gesichtsfälschungserkennung. Aktuelle State-of-the-Art-Ansätze können nicht auf ungesehene Manipulationen verallgemeinert werden, da sie sich hauptsächlich auf überwachtes Training mit existierenden Deepfakes oder Pseudo-Fakes stützen, was zu einer Überanpassung an spezifische Fälschungsmuster führt. Im Gegensatz dazu bieten selbstüberwachte Methoden ein größeres Verallgemeinerungspotenzial, aber bestehende Arbeiten haben Schwierigkeiten, ausschließlich durch Selbstüberwachung diskriminative Repräsentationen zu erlernen. In diesem Beitrag stellen wir ExposeAnyone vor, einen vollständig selbstüberwachten Ansatz basierend auf einem Diffusionsmodell, das Expressionssequenzen aus Audio generiert. Die Kernidee ist, dass das Modell nach einer Personalisierung für bestimmte Personen mittels Referenzsets die Identitätsdistanzen zwischen verdächtigen Videos und personalisierten Personen über Diffusionsrekonstruktionsfehler berechnen kann, was eine Gesichtsfälschungserkennung für Personen von Interesse ermöglicht. Umfangreiche Experimente zeigen, dass 1) unsere Methode den bisherigen State-of-the-Art-Ansatz auf den DF-TIMIT-, DFDCP-, KoDF- und IDForge-Datensätzen im durchschnittlichen AUC um 4,22 Prozentpunkte übertrifft, 2) unser Modell auch in der Lage ist, Sora2-generierte Videos zu erkennen, bei denen bisherige Ansätze schlecht abschneiden, und 3) unsere Methode hochgradig robust gegenüber Störungen wie Unschärfe und Kompression ist, was die Anwendbarkeit in der realen Gesichtsfälschungserkennung unterstreicht.
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.