DeepSpeak Dataset v1.0

Samenvatting

We beschrijven een grootschalige dataset--{\em DeepSpeak}--van echte en deepfake-beelden van mensen die praten en gebaren maken voor hun webcams. De echte video's in deze eerste versie van de dataset bestaan uit 9 uur aan beeldmateriaal van 220 diverse individuen. De nepvideo's, die meer dan 25 uur aan beeldmateriaal omvatten, bestaan uit een reeks verschillende state-of-the-art face-swap en lip-sync deepfakes met natuurlijke en door AI gegenereerde stemmen. We verwachten toekomstige versies van deze dataset uit te brengen met verschillende en geüpdatete deepfake-technologieën. Deze dataset is vrij beschikbaar gemaakt voor onderzoek en niet-commercieel gebruik; verzoeken voor commercieel gebruik zullen in overweging worden genomen.

English

We describe a large-scale dataset--{\em DeepSpeak}--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of 9 hours of footage from 220 diverse individuals. Constituting more than 25 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered.