ChatPaper.aiChatPaper

深層偽造検出のスケーリング則

Scaling Laws for Deepfake Detection

October 18, 2025
著者: Wenhao Wang, Longqi Cai, Taihong Xiao, Yuxiao Wang, Ming-Hsuan Yang
cs.AI

要旨

本論文は、ディープフェイク検出タスクにおけるスケーリング則に関する体系的な研究を提示する。具体的には、実画像ドメイン数、ディープフェイク生成手法数、学習画像数に対するモデル性能を分析する。本研究の規模要件を満たす既存データセットが存在しないため、この分野で過去最大となるScaleDFを構築した。これは51の異なるデータセット(ドメイン)から得られた580万枚以上の実画像と、102のディープフェイク手法によって生成された880万枚以上の偽画像を含む。ScaleDFを用いた分析により、大規模言語モデル(LLM)で示されたものと同様のべき乗則スケーリングが観察された。具体的には、実ドメイン数またはディープフェイク手法数が増加するにつれて、平均検出誤差は予測可能なべき乗則減衰を示す。この重要な知見は、目標性能を達成するために必要な追加の実ドメイン数やディープフェイク手法数を予測可能にするだけでなく、進化し続けるディープフェイク技術に対抗するためのデータ中心的なアプローチを可能にする。さらに、スケーリング下におけるディープフェイク検出への事前学習とデータ拡張の役割、およびスケーリング自体の限界についても検証する。
English
This paper presents a systematic study of scaling laws for the deepfake detection task. Specifically, we analyze the model performance against the number of real image domains, deepfake generation methods, and training images. Since no existing dataset meets the scale requirements for this research, we construct ScaleDF, the largest dataset to date in this field, which contains over 5.8 million real images from 51 different datasets (domains) and more than 8.8 million fake images generated by 102 deepfake methods. Using ScaleDF, we observe power-law scaling similar to that shown in large language models (LLMs). Specifically, the average detection error follows a predictable power-law decay as either the number of real domains or the number of deepfake methods increases. This key observation not only allows us to forecast the number of additional real domains or deepfake methods required to reach a target performance, but also inspires us to counter the evolving deepfake technology in a data-centric manner. Beyond this, we examine the role of pre-training and data augmentations in deepfake detection under scaling, as well as the limitations of scaling itself.
PDF31December 31, 2025