ExposeAnyone: Modelli di diffusione audio-espressione personalizzati sono rilevatori di falsificazioni facciali robusti in contesto zero-shot

Abstract

La rilevazione di manipolazioni deepfake sconosciute rimane uno dei problemi più complessi nel campo dell'identificazione di falsificazioni facciali. Gli approcci allo stato dell'arte attuali non riescono a generalizzare per manipolazioni non viste, poiché si basano principalmente su addestramento supervisionato con deepfake esistenti o pseudo-falsi, il che porta a un overfitting verso pattern di falsificazione specifici. Al contrario, i metodi self-supervised offrono un potenziale di generalizzazione maggiore, ma i lavori esistenti faticano ad apprendere rappresentazioni discriminative unicamente dall'auto-supervisione. In questo articolo, proponiamo ExposeAnyone, un approccio completamente self-supervised basato su un modello di diffusione che genera sequenze di espressioni a partire dall'audio. L'idea chiave è che, una volta che il modello viene personalizzato per soggetti specifici utilizzando set di riferimento, esso può calcolare le distanze d'identità tra video sospetti e soggetti personalizzati attraverso gli errori di ricostruzione della diffusione, abilitando così il rilevamento di falsificazioni facciali per persone di interesse. Esperimenti estensivi dimostrano che 1) il nostro metodo supera il precedente metodo state-of-the-art di 4,22 punti percentuali nella AUC media sui dataset DF-TIMIT, DFDCP, KoDF e IDForge, 2) il nostro modello è anche in grado di rilevare video generati da Sora2, scenario in cui gli approcci precedenti performano scarsamente, e 3) il nostro metodo è altamente robusto a corruzioni come blur e compressione, evidenziando l'applicabilità nel rilevamento di falsificazioni facciali nel mondo reale.

English

Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.

ExposeAnyone: Modelli di diffusione audio-espressione personalizzati sono rilevatori di falsificazioni facciali robusti in contesto zero-shot

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

Abstract

Support