ChatPaper.aiChatPaper

3D-Speaker: Een grootschalig corpus met meerdere apparaten, afstanden en dialecten voor het ontwarren van spreekrepresentaties

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

June 27, 2023
Auteurs: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI

Samenvatting

Het ontwarren van niet-gerelateerde informatie in spraakuitingen is een cruciaal onderzoeksonderwerp binnen de spraakgemeenschap. Verschillende spraakgerelateerde taken richten zich op het extraheren van verschillende spraakrepresentaties, terwijl de invloed van andere niet-gerelateerde informatie wordt geminimaliseerd. Wij presenteren een grootschalig spraakcorpus om onderzoek naar het ontwarren van spraakrepresentaties te faciliteren. 3D-Speaker bevat meer dan 10.000 sprekers, waarbij elke spreker gelijktijdig wordt opgenomen door meerdere apparaten, op verschillende afstanden, en sommige sprekers spreken meerdere dialecten. De gecontroleerde combinaties van multidimensionale audiogegevens resulteren in een matrix van een diverse mix van verstrengelde spraakrepresentaties, wat intrigerende methoden aanmoedigt om deze te ontwarren. Het multidomein-karakter van 3D-Speaker maakt het ook een geschikte bron om grote universele spraakmodellen te evalueren en methoden voor out-of-domain leren en zelfgestuurd leren te experimenteren. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
PDF70December 15, 2024