ChatPaper.aiChatPaper

ExposeAnyone : Les modèles de diffusion audio-vers-expression personnalisés sont des détecteurs de falsification faciale robustes en mode zero-shot

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

January 5, 2026
papers.authors: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI

papers.abstract

La détection de manipulations par deepfake inconnues demeure l'un des problèmes les plus difficiles dans le domaine de la détection de falsifications faciales. Les approches actuelles les plus performantes échouent à généraliser à des manipulations non vues, car elles reposent principalement sur un apprentissage supervisé avec des deepfakes existants ou des pseudo-faux, ce qui conduit à un surapprentissage de motifs de falsification spécifiques. En revanche, les méthodes auto-supervisées offrent un plus grand potentiel de généralisation, mais les travaux existants peinent à apprendre des représentations discriminantes uniquement à partir de l'auto-supervision. Dans cet article, nous proposons ExposeAnyone, une approche entièrement auto-supervisée basée sur un modèle de diffusion qui génère des séquences d'expressions à partir de l'audio. L'idée clé est que, une fois le modèle personnalisé à des sujets spécifiques à l'aide d'ensembles de référence, il peut calculer les distances d'identité entre des vidéos suspectes et les sujets personnalisés via les erreurs de reconstruction par diffusion, permettant ainsi une détection de falsification faciale centrée sur une personne d'intérêt. Des expériences approfondies démontrent que 1) notre méthode surpasse la méthode précédente la plus performante de 4,22 points de pourcentage en AUC moyenne sur les jeux de données DF-TIMIT, DFDCP, KoDF et IDForge, 2) notre modèle est également capable de détecter les vidéos générées par Sora2, domaine où les approches précédentes obtiennent de mauvais résultats, et 3) notre méthode est très robuste face à des altérations telles que le flou et la compression, soulignant son applicabilité dans la détection réelle de falsifications faciales.
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.
PDF11January 8, 2026