Conjunto de Dados DeepSpeak v1.0

Resumo

Descrevemos um conjunto de dados em grande escala - DeepSpeak - de vídeos reais e deepfakes de pessoas falando e gesticulando na frente de suas webcams. Os vídeos reais nesta primeira versão do conjunto de dados consistem em 9 horas de filmagens de 220 indivíduos diversos. Com mais de 25 horas de filmagens, os vídeos falsos consistem em uma variedade de deepfakes de troca de rosto e sincronização labial de última geração com vozes naturais e geradas por IA. Esperamos lançar futuras versões deste conjunto de dados com tecnologias de deepfake diferentes e atualizadas. Este conjunto de dados está disponível gratuitamente para fins de pesquisa e não comerciais; solicitações de uso comercial serão consideradas.

English

We describe a large-scale dataset--{\em DeepSpeak}--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of 9 hours of footage from 220 diverse individuals. Constituting more than 25 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered.

Conjunto de Dados DeepSpeak v1.0

DeepSpeak Dataset v1.0

Resumo

Support