ChatPaper.aiChatPaper

Leis de Escala para Detecção de Deepfakes

Scaling Laws for Deepfake Detection

October 18, 2025
Autores: Wenhao Wang, Longqi Cai, Taihong Xiao, Yuxiao Wang, Ming-Hsuan Yang
cs.AI

Resumo

Este artigo apresenta um estudo sistemático das leis de escalonamento para a tarefa de detecção de deepfakes. Especificamente, analisamos o desempenho do modelo em relação ao número de domínios de imagens reais, métodos de geração de deepfakes e imagens de treinamento. Como nenhum conjunto de dados existente atende aos requisitos de escala para esta pesquisa, construímos o ScaleDF, o maior conjunto de dados até o momento nesta área, que contém mais de 5,8 milhões de imagens reais de 51 conjuntos de dados (domínios) diferentes e mais de 8,8 milhões de imagens falsas geradas por 102 métodos de deepfake. Utilizando o ScaleDF, observamos uma lei de potência de escalonamento semelhante à demonstrada em modelos de linguagem de grande escala (LLMs). Especificamente, o erro médio de detecção segue um decaimento previsível segundo uma lei de potência à medida que o número de domínios reais ou o número de métodos de deepfake aumenta. Esta observação fundamental não só nos permite prever o número adicional de domínios reais ou métodos de deepfake necessários para atingir um desempenho desejado, mas também nos inspira a combater a tecnologia de deepfake em evolução de uma maneira centrada em dados. Além disso, examinamos o papel do pré-treinamento e das aumentações de dados na detecção de deepfakes sob escalonamento, bem como as limitações do próprio escalonamento.
English
This paper presents a systematic study of scaling laws for the deepfake detection task. Specifically, we analyze the model performance against the number of real image domains, deepfake generation methods, and training images. Since no existing dataset meets the scale requirements for this research, we construct ScaleDF, the largest dataset to date in this field, which contains over 5.8 million real images from 51 different datasets (domains) and more than 8.8 million fake images generated by 102 deepfake methods. Using ScaleDF, we observe power-law scaling similar to that shown in large language models (LLMs). Specifically, the average detection error follows a predictable power-law decay as either the number of real domains or the number of deepfake methods increases. This key observation not only allows us to forecast the number of additional real domains or deepfake methods required to reach a target performance, but also inspires us to counter the evolving deepfake technology in a data-centric manner. Beyond this, we examine the role of pre-training and data augmentations in deepfake detection under scaling, as well as the limitations of scaling itself.
PDF31December 31, 2025