Conjunto de datos DeepSpeak v1.0

Resumen

Describimos un conjunto de datos a gran escala, denominado {\em DeepSpeak}, que contiene metraje real y deepfake de personas hablando y gesticulando frente a sus cámaras web. Los videos reales en esta primera versión del conjunto de datos constan de 9 horas de metraje de 220 individuos diversos. Conformando más de 25 horas de metraje, los videos falsos consisten en una variedad de deepfakes de intercambio facial y sincronización labial de última generación con voces naturales y generadas por IA. Esperamos lanzar futuras versiones de este conjunto de datos con tecnologías de deepfake diferentes y actualizadas. Este conjunto de datos está disponible de forma gratuita para fines de investigación y no comerciales; las solicitudes para uso comercial serán consideradas.

English

We describe a large-scale dataset--{\em DeepSpeak}--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of 9 hours of footage from 220 diverse individuals. Constituting more than 25 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered.