ExposeAnyone: Modelos de Difusão de Áudio para Expressão Personalizados São Detectores Robusto de Falsificação Facial Zero-Shot

Resumo

A detecção de manipulações deepfake desconhecidas continua sendo um dos problemas mais desafiadores na detecção de falsificações faciais. As abordagens atuais de última geração falham em generalizar para manipulações não vistas, pois dependem principalmente de treinamento supervisionado com deepfakes existentes ou pseudo-falsos, o que leva ao sobreajuste a padrões específicos de falsificação. Em contraste, os métodos auto-supervisionados oferecem maior potencial de generalização, mas os trabalhos existentes lutam para aprender representações discriminativas apenas a partir da auto-supervisão. Neste artigo, propomos o ExposeAnyone, uma abordagem totalmente auto-supervisionada baseada em um modelo de difusão que gera sequências de expressão a partir de áudio. A ideia central é que, uma vez que o modelo é personalizado para indivíduos específicos usando conjuntos de referência, ele pode calcular as distâncias de identidade entre vídeos suspeitos e indivíduos personalizados por meio de erros de reconstrução por difusão, permitindo a detecção de falsificação facial de interesse. Experimentos extensivos demonstram que 1) nosso método supera o método anterior de última geração em 4,22 pontos percentuais na AUC média nos conjuntos de dados DF-TIMIT, DFDCP, KoDF e IDForge, 2) nosso modelo também é capaz de detectar vídeos gerados pelo Sora2, onde as abordagens anteriores têm desempenho ruim, e 3) nosso método é altamente robusto a corrupções como desfoque e compressão, destacando a aplicabilidade na detecção de falsificações faciais do mundo real.

English

Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.

ExposeAnyone: Modelos de Difusão de Áudio para Expressão Personalizados São Detectores Robusto de Falsificação Facial Zero-Shot

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

Resumo

Support