3D-Speaker: Un Corpus Su Larga Scala Multi-Dispositivo, Multi-Distanza e Multi-Dialetto per la Disambiguazione delle Rappresentazioni Vocali
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
June 27, 2023
Autori: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI
Abstract
Disentanglare le informazioni non correlate negli enunciati vocali è un argomento di ricerca cruciale all'interno della comunità del parlato. Diversi compiti legati al parlato si concentrano sull'estrazione di rappresentazioni vocali distinte, minimizzando al contempo gli effetti di altre informazioni non correlate. Presentiamo un corpus vocale su larga scala per facilitare la ricerca sul disaccoppiamento delle rappresentazioni vocali. 3D-Speaker contiene oltre 10.000 parlanti, ciascuno dei quali è registrato simultaneamente da più dispositivi, situati a diverse distanze, e alcuni parlanti utilizzano più dialetti. Le combinazioni controllate di dati audio multidimensionali generano una matrice di un mix diversificato di intrecci di rappresentazioni vocali, stimolando così metodi interessanti per disaccoppiarli. La natura multi-dominio di 3D-Speaker lo rende anche una risorsa adatta per valutare modelli vocali universali su larga scala e sperimentare metodi di apprendimento fuori dominio e apprendimento auto-supervisionato. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial
research topic within speech community. Different speech-related tasks focus on
extracting distinct speech representations while minimizing the affects of
other uncorrelated information. We present a large-scale speech corpus to
facilitate the research of speech representation disentanglement. 3D-Speaker
contains over 10,000 speakers, each of whom are simultaneously recorded by
multiple Devices, locating at different Distances, and some speakers are
speaking multiple Dialects. The controlled combinations of multi-dimensional
audio data yield a matrix of a diverse blend of speech representation
entanglement, thereby motivating intriguing methods to untangle them. The
multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate
large universal speech models and experiment methods of out-of-domain learning
and self-supervised learning. https://3dspeaker.github.io/