ChatPaper.aiChatPaper

Leyes de Escalamiento para la Detección de Deepfakes

Scaling Laws for Deepfake Detection

October 18, 2025
Autores: Wenhao Wang, Longqi Cai, Taihong Xiao, Yuxiao Wang, Ming-Hsuan Yang
cs.AI

Resumen

Este artículo presenta un estudio sistemático de las leyes de escalamiento para la tarea de detección de deepfakes. Específicamente, analizamos el rendimiento del modelo en función del número de dominios de imágenes reales, métodos de generación de deepfakes e imágenes de entrenamiento. Dado que ningún conjunto de datos existente satisface los requisitos de escala para esta investigación, construimos ScaleDF, el conjunto de datos más grande hasta la fecha en este campo, que contiene más de 5.8 millones de imágenes reales de 51 conjuntos de datos (dominios) diferentes y más de 8.8 millones de imágenes falsas generadas por 102 métodos de deepfake. Utilizando ScaleDF, observamos un escalamiento de ley de potencia similar al mostrado en los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Específicamente, el error promedio de detección sigue un decaimiento predecible de ley de potencia a medida que aumenta el número de dominios reales o el número de métodos de deepfake. Esta observación clave no solo nos permite pronosticar la cantidad de dominios reales o métodos de deepfake adicionales necesarios para alcanzar un rendimiento objetivo, sino que también nos inspira a contrarrestar la tecnología de deepfakes en evolución de una manera centrada en los datos. Más allá de esto, examinamos el papel del pre-entrenamiento y las aumentaciones de datos en la detección de deepfakes bajo escalamiento, así como las limitaciones del propio escalamiento.
English
This paper presents a systematic study of scaling laws for the deepfake detection task. Specifically, we analyze the model performance against the number of real image domains, deepfake generation methods, and training images. Since no existing dataset meets the scale requirements for this research, we construct ScaleDF, the largest dataset to date in this field, which contains over 5.8 million real images from 51 different datasets (domains) and more than 8.8 million fake images generated by 102 deepfake methods. Using ScaleDF, we observe power-law scaling similar to that shown in large language models (LLMs). Specifically, the average detection error follows a predictable power-law decay as either the number of real domains or the number of deepfake methods increases. This key observation not only allows us to forecast the number of additional real domains or deepfake methods required to reach a target performance, but also inspires us to counter the evolving deepfake technology in a data-centric manner. Beyond this, we examine the role of pre-training and data augmentations in deepfake detection under scaling, as well as the limitations of scaling itself.
PDF31December 31, 2025