ChatPaper.aiChatPaper

ExposeAnyone: Gepersonaliseerde audio-naar-expressie-diffusiemodellen zijn robuuste zero-shot-gezichtsvervalsingsdetectoren

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

January 5, 2026
Auteurs: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI

Samenvatting

Het detecteren van onbekende deepfake-manipulaties blijft een van de meest uitdagende problemen in gezichtsvervalsingsdetectie. Huidige state-of-the-art methoden slagen er niet in om te generaliseren naar onzichtbare manipulaties, omdat ze voornamelijk vertrouwen op supervised training met bestaande deepfakes of pseudo-fakes, wat leidt tot overfitting aan specifieke vervalsingspatronen. In tegenstelling daartoe bieden zelfgesuperviseerde methoden een groter potentieel voor generalisatie, maar bestaande werk worstelt om onderscheidende representaties uitsluitend uit zelfsupervisie te leren. In dit artikel stellen we ExposeAnyone voor, een volledig zelfgesuperviseerde aanpak gebaseerd op een diffusiemodel dat expressiesequences uit audio genereert. Het kernidee is dat, zodra het model is gepersonaliseerd voor specifieke personen met referentiesets, het de identiteitsafstanden tussen verdachte video's en gepersonaliseerde personen kan berekenen via diffusie-reconstructiefouten, waardoor gezichtsvervalsingsdetectie voor personen van belang mogelijk wordt. Uitgebreide experimenten tonen aan dat 1) onze methode de vorige state-of-the-art methode met 4,22 procentpunten overtreft in de gemiddelde AUC op DF-TIMIT, DFDCP, KoDF en IDForge datasets, 2) ons model ook in staat is om door Sora2 gegenereerde video's te detecteren, waar eerdere aanpakken slecht presteren, en 3) onze methode zeer robuust is tegen corrupties zoals blur en compressie, wat de toepasbaarheid in real-world gezichtsvervalsingsdetectie benadrukt.
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.
PDF11January 8, 2026