ChatPaper.aiChatPaper

3D-Speaker: Ein groß angelegtes Multi-Geräte-, Multi-Distanz- und Multi-Dialekt-Korpus zur Entflechtung von Sprachrepräsentationen

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

June 27, 2023
Autoren: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI

Zusammenfassung

Die Entflechtung unkorrelierter Informationen in Sprachäußerungen ist ein zentrales Forschungsthema innerhalb der Sprachgemeinschaft. Verschiedene sprachbezogene Aufgaben konzentrieren sich darauf, unterschiedliche Sprachrepräsentationen zu extrahieren, während die Auswirkungen anderer unkorrelierter Informationen minimiert werden. Wir stellen ein groß angelegtes Sprachkorpus vor, um die Forschung zur Entflechtung von Sprachrepräsentationen zu erleichtern. 3D-Speaker enthält über 10.000 Sprecher, von denen jeder gleichzeitig von mehreren Geräten aufgezeichnet wird, die sich in unterschiedlichen Entfernungen befinden, und einige Sprecher verwenden mehrere Dialekte. Die kontrollierten Kombinationen mehrdimensionaler Audiodaten ergeben eine Matrix aus einer vielfältigen Mischung von Sprachrepräsentationsverflechtungen, wodurch interessante Methoden zu deren Entflechtung angeregt werden. Die multidomänische Natur von 3D-Speaker macht es auch zu einer geeigneten Ressource, um große universelle Sprachmodelle zu evaluieren und Methoden des domänenübergreifenden Lernens sowie des selbstüberwachten Lernens zu experimentieren. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
PDF70December 15, 2024