ChatPaper.aiChatPaper

Lois d'échelle pour la détection des deepfakes

Scaling Laws for Deepfake Detection

October 18, 2025
papers.authors: Wenhao Wang, Longqi Cai, Taihong Xiao, Yuxiao Wang, Ming-Hsuan Yang
cs.AI

papers.abstract

Ce document présente une étude systématique des lois d'échelle pour la tâche de détection de deepfakes. Plus précisément, nous analysons la performance du modèle en fonction du nombre de domaines d'images réelles, des méthodes de génération de deepfakes et des images d'entraînement. Aucun ensemble de données existant ne répondant aux exigences d'échelle de cette recherche, nous avons construit ScaleDF, le plus grand ensemble de données à ce jour dans ce domaine, qui contient plus de 5,8 millions d'images réelles provenant de 51 ensembles de données (domaines) différents et plus de 8,8 millions d'images fausses générées par 102 méthodes de deepfake. En utilisant ScaleDF, nous observons une mise à l'échelle en loi de puissance similaire à celle observée dans les grands modèles de langage (LLM). Plus précisément, l'erreur de détection moyenne suit une décroissance prévisible selon une loi de puissance à mesure que le nombre de domaines réels ou le nombre de méthodes de deepfake augmente. Cette observation clé nous permet non seulement de prévoir le nombre supplémentaire de domaines réels ou de méthodes de deepfake requis pour atteindre une performance cible, mais nous inspire également à contrer l'évolution de la technologie des deepfakes de manière centrée sur les données. Au-delà de cela, nous examinons le rôle du pré-entraînement et de l'augmentation des données dans la détection de deepfakes dans un contexte de mise à l'échelle, ainsi que les limites de la mise à l'échelle elle-même.
English
This paper presents a systematic study of scaling laws for the deepfake detection task. Specifically, we analyze the model performance against the number of real image domains, deepfake generation methods, and training images. Since no existing dataset meets the scale requirements for this research, we construct ScaleDF, the largest dataset to date in this field, which contains over 5.8 million real images from 51 different datasets (domains) and more than 8.8 million fake images generated by 102 deepfake methods. Using ScaleDF, we observe power-law scaling similar to that shown in large language models (LLMs). Specifically, the average detection error follows a predictable power-law decay as either the number of real domains or the number of deepfake methods increases. This key observation not only allows us to forecast the number of additional real domains or deepfake methods required to reach a target performance, but also inspires us to counter the evolving deepfake technology in a data-centric manner. Beyond this, we examine the role of pre-training and data augmentations in deepfake detection under scaling, as well as the limitations of scaling itself.
PDF31December 31, 2025