ChatPaper.aiChatPaper

3D-Speaker : Un corpus à grande échelle multi-appareil, multi-distance et multi-dialecte pour la dissociation des représentations vocales

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

June 27, 2023
Auteurs: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI

Résumé

La séparation des informations non corrélées dans les énoncés vocaux constitue un sujet de recherche crucial au sein de la communauté de la parole. Différentes tâches liées à la parole visent à extraire des représentations vocales distinctes tout en minimisant l’impact des autres informations non corrélées. Nous présentons un corpus vocal à grande échelle pour faciliter la recherche sur la séparation des représentations vocales. 3D-Speaker contient plus de 10 000 locuteurs, chacun étant enregistré simultanément par plusieurs appareils, situés à différentes distances, et certains locuteurs parlent plusieurs dialectes. Les combinaisons contrôlées de données audio multidimensionnelles produisent une matrice de mélanges diversifiés d’enchevêtrement de représentations vocales, motivant ainsi des méthodes intrigantes pour les démêler. La nature multidomaine de 3D-Speaker en fait également une ressource adaptée pour évaluer des modèles vocaux universels de grande envergure et expérimenter des méthodes d’apprentissage hors domaine et d’apprentissage auto-supervisé. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
PDF70December 15, 2024