ChatPaper.aiChatPaper

ExposeAnyone: Los Modelos de Difusión de Audio a Expresión Personalizados Son Detectores de Falsificaciones Faciales Robusto de Tipo Cero-Shot

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

January 5, 2026
Autores: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI

Resumen

La detección de manipulaciones deepfake desconocidas sigue siendo uno de los problemas más desafiantes en la detección de falsificaciones faciales. Los enfoques actuales más avanzados no logran generalizar a manipulaciones no vistas, ya que dependen principalmente del entrenamiento supervisado con deepfakes existentes o pseudo-fakes, lo que conduce a un sobreajuste a patrones de falsificación específicos. Por el contrario, los métodos auto-supervisados ofrecen un mayor potencial de generalización, pero el trabajo existente lucha por aprender representaciones discriminativas únicamente a partir de la auto-supervisión. En este artículo, proponemos ExposeAnyone, un enfoque completamente auto-supervisado basado en un modelo de difusión que genera secuencias de expresiones a partir de audio. La idea clave es que, una vez que el modelo se personaliza para sujetos específicos utilizando conjuntos de referencia, puede calcular las distancias de identidad entre videos sospechosos y los sujetos personalizados mediante errores de reconstrucción por difusión, permitiendo la detección de falsificaciones faciales de personas de interés. Experimentos exhaustivos demuestran que 1) nuestro método supera al método anterior más avanzado en 4.22 puntos porcentuales en el AUC promedio en los conjuntos de datos DF-TIMIT, DFDCP, KoDF e IDForge, 2) nuestro modelo también es capaz de detectar videos generados por Sora2, donde los enfoques anteriores tienen un rendimiento deficiente, y 3) nuestro método es altamente robusto a corrupciones como el desenfoque y la compresión, destacando la aplicabilidad en la detección de falsificaciones faciales en el mundo real.
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.
PDF11January 8, 2026