3D-Speaker: Een grootschalig corpus met meerdere apparaten, afstanden en dialecten voor het ontwarren van spreekrepresentaties
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
June 27, 2023
Auteurs: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI
Samenvatting
Het ontwarren van niet-gerelateerde informatie in spraakuitingen is een cruciaal onderzoeksonderwerp binnen de spraakgemeenschap. Verschillende spraakgerelateerde taken richten zich op het extraheren van verschillende spraakrepresentaties, terwijl de invloed van andere niet-gerelateerde informatie wordt geminimaliseerd. Wij presenteren een grootschalig spraakcorpus om onderzoek naar het ontwarren van spraakrepresentaties te faciliteren. 3D-Speaker bevat meer dan 10.000 sprekers, waarbij elke spreker gelijktijdig wordt opgenomen door meerdere apparaten, op verschillende afstanden, en sommige sprekers spreken meerdere dialecten. De gecontroleerde combinaties van multidimensionale audiogegevens resulteren in een matrix van een diverse mix van verstrengelde spraakrepresentaties, wat intrigerende methoden aanmoedigt om deze te ontwarren. Het multidomein-karakter van 3D-Speaker maakt het ook een geschikte bron om grote universele spraakmodellen te evalueren en methoden voor out-of-domain leren en zelfgestuurd leren te experimenteren. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial
research topic within speech community. Different speech-related tasks focus on
extracting distinct speech representations while minimizing the affects of
other uncorrelated information. We present a large-scale speech corpus to
facilitate the research of speech representation disentanglement. 3D-Speaker
contains over 10,000 speakers, each of whom are simultaneously recorded by
multiple Devices, locating at different Distances, and some speakers are
speaking multiple Dialects. The controlled combinations of multi-dimensional
audio data yield a matrix of a diverse blend of speech representation
entanglement, thereby motivating intriguing methods to untangle them. The
multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate
large universal speech models and experiment methods of out-of-domain learning
and self-supervised learning. https://3dspeaker.github.io/