DeepSpeak Datensatz v1.0

Zusammenfassung

Wir beschreiben einen umfangreichen Datensatz - DeepSpeak - bestehend aus echten und Deepfake-Videos von Personen, die vor ihren Webcams sprechen und gestikulieren. Die echten Videos in dieser ersten Version des Datensatzes umfassen 9 Stunden Filmmaterial von 220 verschiedenen Personen. Die gefälschten Videos bestehen aus mehr als 25 Stunden Filmmaterial und zeigen eine Vielzahl verschiedener modernster Gesichtstausch- und Lippen-Synchronisations-Deepfakes mit natürlichen und KI-generierten Stimmen. Wir planen, zukünftige Versionen dieses Datensatzes mit verschiedenen und aktualisierten Deepfake-Technologien zu veröffentlichen. Dieser Datensatz steht für Forschungs- und nicht-kommerzielle Zwecke frei zur Verfügung; Anfragen für kommerzielle Nutzung werden geprüft.

English

We describe a large-scale dataset--{\em DeepSpeak}--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of 9 hours of footage from 220 diverse individuals. Constituting more than 25 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered.