ChatPaper.aiChatPaper

ExposeAnyone: Персонализированные аудио-экспрессивные диффузионные модели как надежные детекторы подделки лиц с нулевым обучением

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

January 5, 2026
Авторы: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik
cs.AI

Аннотация

Обнаружение неизвестных дипфейковых манипуляций остается одной из наиболее сложных проблем в области выявления подделки лиц. Современные передовые методы не способны обобщаться на невидимые манипуляции, поскольку они в основном полагаются на обучение с учителем на существующих дипфейках или псевдоподделках, что приводит к переобучению на специфические паттерны фальсификации. В отличие от них, методы самообучения обладают большим потенциалом для обобщения, однако существующие разработки сталкиваются с трудностями в изучении дискриминативных представлений исключительно на основе самообучения. В данной статье мы предлагаем ExposeAnyone — полностью самообучаемый подход, основанный на диффузионной модели, которая генерирует последовательности выражений лиц из аудио. Ключевая идея заключается в том, что после персонализации модели на конкретных субъектах с использованием референсных наборов, она может вычислять расстояния идентичности между подозрительными видео и персонализированными субъектами через ошибки диффузионной реконструкции, что позволяет осуществлять выявление подделки лиц для конкретного интересующего лица. Многочисленные эксперименты демонстрируют, что: 1) наш метод превосходит предыдущий передовой метод на 4,22 процентных пункта по среднему AUC на наборах данных DF-TIMIT, DFDCP, KoDF и IDForge; 2) наша модель также способна обнаруживать видео, сгенерированные Sora2, с чем предыдущие подходы справляются плохо; и 3) наш метод высоко устойчив к искажениям, таким как размытие и сжатие, что подчеркивает его применимость в задачах реального обнаружения подделки лиц.
English
Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.
PDF11January 8, 2026